WordPress Related Entries for J (仮称)
そのエントリに関連するエントリを抽出する、Related Entries for J (仮称) を作り始めてみました。
うーん、この手の日本語の処理は大変です。 漢字コード表とにらめっこで、なんとかデバッグ表示くらいまでは動くようになりました。
文字種(漢字とかカタカナとか)で切り出した後部分抽出をして、出現数、長さ、文字種等でそのエントリの用語ランキングを生成します。 同様にして事前にインデックス化した各エントリと比較して関連エントリを出力する仕組みです。
とりあえず切り出し部分抽出までできたので、後はランク条件をどうするか、、といったことろです。
現在インデックスを DB に格納しないでオンメモリで動かしているのですが、ためしに1ヶ月分くらいのエントリを食べさせてみたらメモリ不足か落ちました。 orz
今のデバッグ表示機能だけでもテキストマイニングっぽくて結構面白いのですが、こんな落ちるプログラムを商用環境で動かした日には、XREA の管理人さんが X ジャンプしながら攻めてきたり、いつもは穏やかなロリポおじさんの顔が曇ったりするので公開はもう少しできてからしてみます。 🙂
このプログラムは、関連エントリを出すだけではなく各エントリの “キーワード” も取得できるので、いろいろ面白い使い方もできそうです。
From: kohaku - 2005/7/10 Sunday (Comment)
やはり日本語タイトルで記事を書いた場合は、なにひとつヒットしませんね。
このプラグインに期待しております。(w
>各エントリの “キーワード” も取得できる
これって、自動でTagを付けることができますね。
カテゴリーが必要なくなるかな?
From: ひろまさ - 2005/7/10 Sunday (Comment)
確認どうもありがとうございます。 スペース単語の区切りがない日本語だと厳しいですよねー。
正直どの程度精度が出るかが未知数なのであまり期待しないでお待ち下さい。。(笑
>これって、自動でTagを付けることができますね。
そうですね!。 そして、アファリエイトに・・・、、というのが最大の目標だったりします。 🙂
使える精度がでると良いのですが、はたして!