hiromasa.zone : o)

2005/7/8 Friday 投稿時の月齢:2.4  月名:三日月  潮汐:中潮 Moon:2.4[三日月]今日の心技体 : 低調期低調期低調期

WordPress Related Entries for J (仮称) このエントリをはてなブックマークに追加このエントリをdel.icio.usに追加

日記 - ひろまさ @ 21:55

そのエントリに関連するエントリを抽出する、Related Entries for J (仮称) を作り始めてみました。

うーん、この手の日本語の処理は大変です。 漢字コード表とにらめっこで、なんとかデバッグ表示くらいまでは動くようになりました。

管理画面

文字種(漢字とかカタカナとか)で切り出した後部分抽出をして、出現数、長さ、文字種等でそのエントリの用語ランキングを生成します。 同様にして事前にインデックス化した各エントリと比較して関連エントリを出力する仕組みです。

とりあえず切り出し部分抽出までできたので、後はランク条件をどうするか、、といったことろです。

現在インデックスを DB に格納しないでオンメモリで動かしているのですが、ためしに1ヶ月分くらいのエントリを食べさせてみたらメモリ不足か落ちました。 orz

今のデバッグ表示機能だけでもテキストマイニングっぽくて結構面白いのですが、こんな落ちるプログラムを商用環境で動かした日には、XREA の管理人さんが X ジャンプしながら攻めてきたり、いつもは穏やかなロリポおじさんの顔が曇ったりするので公開はもう少しできてからしてみます。 🙂

このプログラムは、関連エントリを出すだけではなく各エントリの “キーワード”  も取得できるので、いろいろ面白い使い方もできそうです。

2 Comments

Comment

  1. From: kohaku - 2005/7/10 Sunday Daytime (Comment)

    やはり日本語タイトルで記事を書いた場合は、なにひとつヒットしませんね。
    このプラグインに期待しております。(w

    >各エントリの “キーワード” も取得できる
    これって、自動でTagを付けることができますね。
    カテゴリーが必要なくなるかな?

  2. From: ひろまさ - 2005/7/10 Sunday Daytime (Comment)

    確認どうもありがとうございます。 スペース単語の区切りがない日本語だと厳しいですよねー。
    正直どの程度精度が出るかが未知数なのであまり期待しないでお待ち下さい。。(笑

    >これって、自動でTagを付けることができますね。

    そうですね!。 そして、アファリエイトに・・・、、というのが最大の目標だったりします。 🙂
    使える精度がでると良いのですが、はたして!


このサイトはコンテンツをフリーズしました。トラックバック・コメントは閉じられています。

新しいサイトは、

hiromasa.another :o)

です。 :-)

このサイトについて

このブログは引っ越しを行いコンテンツはフリーズしています。hiromasa.anotherへどうぞ。

Powerd By WordPress

We (Heart) WordPress

WordPressME Logo
WordPress Plugins

ブログ内検索

Todays Popular

WordPress Ring

はてなリング - WordPress -

情報

31 queries. 0.298 seconds.

このページの先頭へ