hiromasa.zone : o)

2007/6/26 Tuesday 投稿時の月齢:11.2  月名:十二日月  潮汐:中潮 Moon:11.2[十二日月]今日の心技体 : 好調期好調期低調期

Mozilla 系の拡張機能の修正方法 このエントリをはてなブックマークに追加このエントリをdel.icio.usに追加

日記 - 晴時々曇 ひろまさ @ 6:44

先日、おでさんと Thundirbird の拡張を試していたときに、試していた拡張に不具合を発見しました。 ちょっとしたことなのですが、任意入力の文字列部分にあるべき trim 処理が入っていないという事象。 それならきっとすぐなおせるYO! ってな感じで、勘を頼りに(笑)やったときのメモです。

Firefox / Thundirbird の拡張の形式は、.xpi 形式。 これは実はただの .zip です。 でもって、その展開されたファイルに入っている chrome の中の .jar も .zip です。 てなわけで、.xpi を .zip にリネームして展開、さらに中にはいっている、 .jar を .zip にして展開すればソースコードを取り出せます。

mozilla

mozilla2

(直した拡張とは別の拡張のスクリーンショットです)

あとは、JavaScript + XUL + DOM のソースコード。 JavaScript + XHTML + DOM をいじったことがある方なら、ちょっとした修正くらいなら勘でいけるでしょう。 🙂 ここでは、trim のコードを一行追加。

修正でけたら、元通りの階層で .zip 圧縮しなおして、それぞれ .jar / .xpi にリネームして再インストールすれば完成です。

さて、拡張開発をやっている人はホントはどうやっているんだろう、まさかいちいちリビルドしてないよなーと思って調べたら、ちゃんとドキュメントがありました。

Setting up extension development environment – MDC

この記事では、あなたのMozillaアプリケーションにおいて拡張機能の開発を容易にするためのノウハウを提案します。

ディレクトリ内のファイルを拡張として登録できて、ホットデプロイもできるみたいですね。 これなら手間いらずです。 最終的な .xpi パッケージ化は .zip をつくれればいいので、ant が便利かな…。

以上、拡張がバグってて困っている方はお試しください。

2007/6/25 Monday 投稿時の月齢:9.9  月名:十日月  潮汐:長潮 Moon:9.9[十日月]今日の心技体 : 好調期好調期低調期

スクリプト言語開発のための統合環境 このエントリをはてなブックマークに追加このエントリをdel.icio.usに追加

日記 - 曇時々晴(23/16) ひろまさ @ 1:18

PHP や JavaScript など、Web 系のスクリプト言語の開発環境の紹介です。 といっても、いつもの Eclipse ですが、時の流れとともに使うものが増えたりしたのでスクリーンショット交えて書いてみます。 前に書いていた記事も、ダウンロードリンクが古くなってしまったりしているので、最新化もかねています。 🙂

Eclipse は基本的に Java の開発環境ですが、さまざまなプラグインが開発されておりスクリプト系言語でも十二分に実力を発揮してくれます。

統合環境で開発を行うとなにが良いかというと、

  1. 構文エラー系が事前に申告される。 コロンのうちそこないとか、ダブルコートのおかしな部分などが動作前に分かる。また、使われていない変数なども警告してくれる。
  2. コードの操作で通常のテキストエディタでは不可能なジャンプができる。 関数の呼び先や定義などにキーひとつで飛べる。
  3. コード管理にかんすることが統合環境で完結できる。 grep による全文検索や CVS、Subvertion などのバージョン管理システムなどが統合されている。
  4. PHP や JavaScript、CSS、HTML また DB 操作などおおよそ考えられる編集が同一環境で可能。
  5. デバッガーが使える。

特に、1番目のシンタックスチェックは大幅に作業効率をあげてくれます。

画面の見た感じ。

eclipse01

左ペインがファイル操作。 真ん中がタブエディタ。 右がアウトライン表示。 また、下の段には、見づらいですが SQL の検索結果が表示されています。 この辺は好きに配置できるようになっています。

この場合だと、

  1. 真ん中のエディタで PHP の編集。
  2. 動作後の SQL の結果が知りたいので、別のタブのエディタで SQL をうって、実行。
  3. 下ペインでその SQL 検索結果をみて動作確認。

みたいな感じになります。 画面に、プラグインなどで追加した好きな機能を好みに配置し、連携させて使っていくイメージです。

たとえば、JavaScript 編集用の部品として Aptana の JavaScript エディタというのがあります。

eclipse02

JavaScript の編集、エラー申告を担います。

他にも小物もいろいろあって、翻訳用のパネルなんてのもあります。

eclipse04

間違って、SQL を翻訳してしまった。。 orz Twitter 用のパネルとか IP Messanger 用のパネルとかその他いろいろ。 プラグイン探すのも結構面白いですね。 🙂

また、ブラウザも配置できてしまうので、

eclipse05

このようにすると、Eclipse からはなれなくてもショートカットでブラウザを呼び出せます。 (これはデバッガを動かしているときに強力です)

画面にパネル(ビュー)を配置していくのですが、気分(やりたいこと)によって配置が換えたいときがあり、Eclipse ではこれをパースペクティブと呼び、いくつかの配置状態を記録させておくことができます。

もっと DB をいじりたい、なんてときは全編 DB 系のビューを配置して記憶させると便利です。

eclipse03

てな感じで、Eclipse あげちゃうとたいていのことができちゃうので、開発中はおとさないでずっと起動しっぱなしになります。 重めのソフトですが、まぁ起動しちゃえばさほど気にならないので大丈夫でしょう。 🙂

以下、現在のダウンロード URL なんかを書いてみます。 もし気になる方がいたらお試しを。

動作環境に JavaVM が必要なので、とりあえず JavaSE をインストール。

Java SE Downloads

jdk-6u1-windows-i586-p.exe

Eclipse 本体。 WTP という Web 系の便利プラグインがはいったオープインワンパッケージが便利です。

Eclipse Web Tools Platform (WTP) Downloads

wtp-all-in-one-sdk-R-1.5.4-win32.zip

それぞれの日本語ランゲージパック。

Eclipse Language Pack
WTP Language Pack

NLpack1-eclipse-SDK-3.2-win32.zip
NLpack1-wtp-sdk-R-1.5.1-200609230508a.zip

PHP 言語をサポートする、PHPEclipse。

PHPEclipse.net

The PHPeclipse project aims to create a full featured PHP IDE with features like internal PHP parser, debugger, code formatter, outline view, templates and much more.

インストールは、Eclipse のプラグイン管理から以下の URL を入力。

http://phpeclipse.sourceforge.net/update/releases

DB フロントエンド、SQL Explorer。

【ハウツー】RDBMS操作ツール決定打!? – EclipseからOracle/DB2/MySQL/PostgreSQLを操作 (1) Eclipse SQL Explorerとは | エンタープライズ | マイコミジャーナル

Eclipse SQL ExplorerはJDBCを通じてデータベースの閲覧やクエリ操作を行うためのユーティリティツール。GNU LESSER GENERAL PUBLIC LICENSE Version 2.1のもとで公開されているオープンソースソフトウェアで、執筆現在での最新版は8月30日(米国時間)に公開された3.0.0。

JavaScript デバッガー & Web Develop、Aptana。

Aptana: Download

Download Aptana for Eclipse


コメント欄で、wozozo さんに教えて頂きました。 EasyEclipse を使うと JDK 、PHPEclipse、Amateras 等々 Web 系の環境が一気にそろうようです! Aptana は別途インストールでいけると思います。 🙂

EasyEclipse | Distributions | EasyEclipse for LAMP

This distribution contains all the plugins needed to develop in PHP, Python, Perl, Ruby and Ruby On Rail. You may need to disable some plugins based on your needs.

2007/6/24 Sunday 投稿時の月齢:9.0  月名:十日月  潮汐:長潮 Moon:9.0[十日月]今日の心技体 : 好調期好調期低調期

WordPress での日本語抜粋方法 このエントリをはてなブックマークに追加このエントリをdel.icio.usに追加

日記 - 曇時々晴(24/15) ひろまさ @ 4:16

WordPress では RSS やサイト内検索結果、またトラックバックを受けたときなどに、必要であれば文字列の抜粋処理が走ります。 ご存じの通り、この抜粋の処理は単語間のスペースを利用するワードカウントで処理されているので単語間の区切りがない日本語ではうまく抜粋できません。 これを解決するために、ME の内部実装やハック、プラグインが発表されています。

まずは、この解決の元祖であろう jam さん のパッチから。 ぼのさんのところに詳しい解説があります。

power source* ≫ WP: 抜粋表示時の全文出力を修正

日本語のように単語間がスペースで区切られない言語の場合、記事本文を抜粋表示する the_excerpt() を用いたとき、抜粋表示オプション欄を入力していない記事については HTML タグを取り除いた全文が出力されてしまう(正確には、英単語などがある程度混ざれば途中で切れる)。(図1)
私はほとんど当該オプションを入力していないので、アーカイブページで抜粋表示をしようとして困った。*1

フィルターをうまくつかった、Junon さんからのプラグインの実装もあります。

the_excerpt()で漢字も対応させるplugin | Tech de Go

これが、日本語(というかマルチバイト文字)の場合にはワードの概念が無いので、ほぼ全部表示されることになる。これではいやなので、対応するためのプラグインを作った。このプラグインは、wordpressのthe_excerpt(), the_excerpt_rss(), comment_excerpt()の3つの関数をフィルターして、マルチバイト文字100文字(デフォルト)で省略の「...」を表示する。1バイトのアルファベット、数字、記号などは文字数としてカウントしない。1バイトの場合は55ワードで省略は基本設定のままになる。

hiromasa.zone マニアの方(いるのか!?)はお気づきだったかもしれませんが、先日ふと思い、ぼくも RSS 抜粋に対してパッチをあてていました。 しかしそこは hiromasa.zone 、上に書かせて頂いたプラグインのような高度な文字列処理ではなく、

「。」が3つきたらそこでおわり...

という思いつき実装。。 しかしRSS 抜粋で使うと結構あつい(笑) 3センテンスに内容を凝縮するのが結構楽しかったりします。 more 使えって話もあるのですが、ものぐさなのでプレーンオールドエントリーでやるにはどうすればいいかなと考えた結果です。 🙂

ちなみに、全文 RSS 主流なのになんで抜粋かっていうと、フィードリーダが publish 後瞬く間にエントリを持って行くので publish 後の修正が効かない、、という単純な理由です。 結構間違えに気がついて変更するもので…。 (前も書いたか

この抜粋ロジックをプラグイン化したので(簡単なものですが)、せっかくなので公開します。 エントリにありそうな日本語の文章でしかうまく動きませんが、もしやってみたい方がいましたらどうぞ。

wp-murasame.tar.gz

実はいくつかの抜粋を組み込んで、フィルターごとに設定しようともくろんだため、いまのところ妙な実装になっています。

RSS 以外も、エントリ一覧や検索結果でつかわれる the_excerpt() やトラックバック抜粋 comment_excerpt() にも適応できるように、プラグインの下の方でコメントつけていますので、適当に修正してご利用ください。

ME 版で 2.0 系で RSS に適応したい方は、ご利用の wp-rss2.php 等を本家版にさしかえてください。 ME 2.0 系は RSS にパッチがしてあってワードカウント抜粋が事前に対策されています。 2.2 系はそのままで大丈夫です。

また、プラグイン作成にあたりぼのさんにたくさんご協力いただきました。 ありがとうございます。

英語と日本語混在とか、HTML タグの扱いとか禁則とか、抜粋はいろいろ考えると奥が深いですね。 面白いロジックを思いついたら追加したいと思います。 🙂

2007/6/23 Saturday 投稿時の月齢:7.9  月名:弓張月(上弦)  潮汐:小潮 Moon:7.9[弓張月(上弦)]今日の心技体 : 好調期好調期低調期

仮想現実の中心で愛を叫ぶ このエントリをはてなブックマークに追加このエントリをdel.icio.usに追加

日記 - 晴時々曇 ひろまさ @ 0:24

それは先日の出来事。

hiromasa.zone :o) ≫ From Forza2 with WordPress ISM

あのロゴで描ければ格好いいんだけどな~。

てなわけで、ライブでは WordPress ISM つけて走ることにします。 みつけてもぶつけないでね。。 🙂

XBOX 360 の Forza2 というレースゲームで遊んでいて、噂のデカールはりを決行してみて挫折。。

“あのロゴ”で描けば…。 という想いが、smi さん の手で現実に!!

From: smi – 2007/6/22 Friday Nighttime (Comment)

こんばんわです。
このロゴですね。早速作ってみましたw

http://s373.jp/?p=1483

こんなのでよかったら、これを車に貼り付けてギフトしますよ。
ちなみにベース車は、プライズでもらった古いポルシェですがw

smi01

smi02

そして仮想現実は、ぼくの XBOX 360 に We Love WordPress カーをもたらす。

ひろまささ~ん

起動した 360 から smi さんの声がでた! ぼ、ぼいすめーる!。 初体験。。 そ、そして Forza2 を立ち上げると

ギフトカー

の文字が! おそるおそる、押してみたら・・・

porsche

キテルーーー!(涙 360 すげーーー。

ありがとう、XBOX Live、ありがとう、smi さん!!

大事に使わせて頂きます!。 🙂

2007/6/22 Friday 投稿時の月齢:7.0  月名:弓張月(上弦)  潮汐:小潮 Moon:7.0[弓張月(上弦)]今日の心技体 : 好調期好調期低調期

WordPress と MovableType と GPL と このエントリをはてなブックマークに追加このエントリをdel.icio.usに追加

日記 - 晴時々曇(26/17) ひろまさ @ 2:27

ちょっと前になりましたが、MovableType がライセンスを GPL にするらしい。 無料になってわーいっていう感じもありますが、ふと有料プラグインとか作っている人たちが微妙に困ったことになるような気がしてきました。

# まだでていないので普通の GPL であることとして書いています。(sixapart 社が GPL に例外条項として「プラグインはOK」みたいなのをつける可能性はあります。 これがつくと以下の文章は無意味です)

スラッシュドット ジャパン | Movable Type 4、GPL版もリリースへ

Movable Type と言えば最も有名なブログツールの一つであるが、オープンソースではないことでも知られていた。だが、今年の夏頃に Movable Type 4のGPL版がリリースされるという記事がOpen Tech Pressに掲載されている。既に Movable Type Open Source Project のページまであったりするが、コードをいじってみたいと思っていた人は参加してみよう。

MovableType の場合、どうやら GPL と sixapart 社のデュアルライセンスになるようなので、まず分かりやすい単一 GPL の WordPress でプラグイン/テーマの扱いを書いてみます。

WordPress は GPL というライセンスで配布されています。 GPL はおおざっぱに書けば、「自由に使える」、「ソースを公開する」「再配布時することができて(改変してもOK)、するときは GPL にしなければいけない」などが大きな特徴です。

プラグインとかテーマを書く人からするともういっこあって「GPL にリンクするソフトは、そのソフトをGPL にしなければいけない」という特徴があります。 てなわけで、WP のプラグインをつくると本体の GPL に従ってそのプラグインは GPL になります。

“リンク” っていうのが難しいところですが、WP の場合で言えばコアファイルに含まれる関数を呼び出すこと。 これがリンクになります。 ということは、プラグインは完全に GPL。 で、テーマもテンプレートタグを呼び出すのでテンプレートタグの解釈によっては GPL になります。 (後述)

で、たとえば有料でプラグインやテーマを “配布” するとなるとどうなるかというと、まず GPL の場合その配布が有料であるか無料であるかは問いません。 問題は1次配布をうけたユーザは、その利用ライセンスが GPL となるので “再配布” できるという話です。 ということで、買った人が(そうしたければ)無料で GPL として再配布できます。 これは商売をやっている人からすると面白くありません。 最悪、一人に売れたらあとは無料で他から取得できてしまうからです。

さて、MovableType も GPL 版がでたあかつきには当然、この特徴を持つことになります。 GPL 版の MovableType にリンクする限り、プラグインの配布ライセンスは GPL になると思われ、有料のプラグインをつくっている人たちは GPL にのっとった再配布を許可せざるを得なくなります。

現実的には「このプラグイン は GPL 版の MovableType ではは使えない」ということにすれば、とりあえず良さそうですが、はたしてユーザがついてくるかどうか。 ぼくは MT のコミュニティーの様子はあまり分からないので、どんなもんでしょう? 🙂

MT の場合ちょっと難しいのが、テーマの扱いです。

GPL は、たとえば GPL で配布されているインタプリタ言語があったとして、そのインタプリタ上で動くソフトウェアには GPL の特性はかかりません。 もっと簡単な例だと、GPL で配布されている画像処理ソフトでつくった”絵”は GPL にはなりません。 要は GPL はソフトウェア上で処理するデータに関しては無関心です。

MT は WP と違って独自のエンジンで解釈するテンプレートタグを持ちます。 このテンプレートタグの扱いを、MT 環境上で動く言語としてとらえるとテーマに関しては GPL はかかりません。 ただのデータ扱いになれるような気がするのです。

WP の場合も強引にその解釈もできそうですが、、なんせ生の PHP で関数呼んで動いちゃっていますから、、どうなんでしょう。 だめかな。 あと、CSS とか 画像の扱いもぼく的には結構謎だったりします。

ちなみに誤解がないように書いておくと、以上は全て”配布”する場合の条件です。 配布をおこなわず、自分で使う場合はもちろん「自由に使える」です。 自分というのは、個人の場合もあるでしょうし、企業としてライセンスをうけて内部でつくることもあるでしょう。

何かをほしがっている人に有料でプラグインやテーマを納品したい場合は、その人がつくったことにすればいいと思います。 具体的に言えば、その企業に雇ってもらってその会社の著作物とすればよいわけです。 あ、ただその会社がそれを外販しちゃうと GPL 配布になるのは注意です。

…てなわけで、だれか雇ってください(冗談です

注) 以上はぼく的な解釈なので間違っているかもしれないです、、というか裁判所がやることかな。 まぁ話半分くらいにみといてください。

2007/6/21 Thursday 投稿時の月齢:6.0  月名:七日月  潮汐:小潮 Moon:6.0[七日月]今日の心技体 : 好調期好調期低調期

Yahoo!Japan の日本語形態素解析Webサービスで遊んでみる このエントリをはてなブックマークに追加このエントリをdel.icio.usに追加

日記 - 曇のち晴(25/17) ひろまさ @ 2:32

日本語対応のサーチエンジンをつくるとなったときに、肝となるであろう形態素解析。 この Web API をなんと Yahoo!Japan が解放してきました! こりゃーおもしろそう、ってことで早速 WordPress でちょっとしたプラグインを書いて、エントリをたべさせて遊んでみました。 🙂

Yahoo!デベロッパーネットワーク – テキスト解析 – 日本語形態素解析

日本語文を形態素に分割し、品詞、読みがなの付与、統計情報を取得できる機能を提供します。

サーチエンジンは日本語を取得しそのページにいったい何が書いてあるかと言うことを判断してインデックスしています(たぶん)。 英語などスペースで区切られた体型を持つ言語では、単語の現れる回数などで割と簡単(いやそれでもいろいろ難しいのだろうけど)にインデックスできそうですが、日本語ではこれができません。 単語間の区切りがないためまず文章から単語を抽出しなければいけない上に、さらに複雑に品詞によって単語が変化するので始末に負えない。。

てなわけで形態素解析というのは、こういった文章から単語やその品詞を解析する技術です。 おそらく、Yahoo! Japan でインデキシングに使われているルーチンのサブセットをそのまま解放してくれたのですから、これはとても興味深いことです。

前に、茶筅という形態素解析のソフトを使って遊んだことがありました。

hiromasa.zone :o) ≫ あなたのブログは何ブログ?

利用させていただいたのは、形態素解析システム茶筌。 詳しくはリンク先を・・・。 茶筅に全エントリをたべさせて、単語でサマって、それででもって、名詞と未知語(多くは茶筅の辞書にない名詞)でランキングしてみました。

やっぱ WordPress が多いのか?!  結果は以下に!(全エントリから 20 以上出現した単語)

このときはエントリを Windows に全部持ってきて、Windows 上で集計をかけたのです。 これが、Web サーバ上でできればいろいろできるだろーなーって思っていたのですが、まさか Web API ででてくるとは! 🙂

てなわけで、Yahoo!Japan の日本語形態素解析Webサービスを WordPress から使えるようにするプラグインを書いてみました。

wp-muramasa-0.01.zip

公開停止しています

事前に言っておきますと、まだなんにもできない上に、豪快にバグっています。 :-P とりあえずで Yahoo! API に REST を投げる実験をして、結果見て今後どんなふうにしようかな~レベルのものなので、ユーザインターフェースからしてむちゃくちゃです。 あと、のら PEAR もはいっちゃっていますので、環境によっては redeclare するかもしれません。 万が一入れてみた方がいて、その場合は、、、適当になんとかしてください。。 (笑)

wp-muramasa01

wp-muramasa02

てなかんじで、エントリ選んで Yahoo! に解析してもらって結果を表示できるだけです。 でも、結構面白い! というか、 Yahoo! の形態素解析さすがにとても優秀です。

たとえば以下の文章。

  1.  ここは札幌、北海道。
  2.  本日、やぼよう?があって Otsukare さんの携帯にメールを送る。 以前のエントリでカラオケの練習している?
  3.  練習してるかい ?
  4.  ひろまささん。ライバルはこの二人です。
  5.  リンク先は GYAO の「うたブロ」ベータ版ね
  6.  っていうのがあったので、要件とは関係なく、なんとなく「すすきのでお待ちしております」って書きました。
  7.  でその後ブログみたら、、
  8.  今から北海道に行って来ます
  9.  去年は「南へ走れ海の道を!!」って感じでしたが、今年は2泊3日でペンギン見てカニ食って温泉入って馬を眺めるために北へ飛びます。ついでに北のワッパーとぷちオフをと思ったのですが、ゴールデンウィークの谷間を利用した29,800円の激安ツアー故の殺人的スケジュールが更に殺人的となってしまうためパス。
  10.  [tegaki]まじでこっちきとるー![/tegaki]
  11.  絶対会いに行ったる。 そうきめたひろまさくんは、勝手に今日会うことに決め、なんだかんだでつくとおもわれる 20時くらいをめがけてすすきのに出かけたのでした。
  12.  とりあえず、ご飯食べてなかったのでメールがてらマックにイン。 そうこうしていると、Otsukare さんからメールが来ました。
  13.  「明日いかがですか?」
  14.  うー、明日は仕事で何時になるか分からん。。 意を決して、
  15.  「今日はお疲れですか?いますすきのです(笑)」
  16.  なんて強引なぼく。 そしたら、
  17.  「何時になるか分かりませんが、待っていてくれるなら行きます。(・∀・)]
  18.  [tegaki]待ちます、いつまでも[/tegaki]
  19.  マックを出てビールを飲みながら待てるお店に入店。 途中、「いま札幌南整形外科前です」と連絡が入る。
  20.  [tegaki]どこだ!!わからん!![/tegaki]
  21.  店員さん、お客さん総動員でリサーチ。 どうもここから 30分地点くらいらしい。 近くにいる!
  22.  で、到着メール。 お店のお金を払わずにお迎えに。(笑) 信号の向こうで手を振っている Otsukare さんハケーン。 無事合流。
  23.  お店に戻る(笑)
  24.  今日は祝日。 いつもならお休みのお店。 あるいみ奇跡だと思った。
  25.  hiromasa.zone の We Love WordPress、このエントリのモデルしてくれた女の子がいました。
  26.  We Love WordPress in Japan!
  27.  From: Otsukare - 2006/8/6 日曜日 Nighttime (Comment) |Edit This
  28.  とうもろこし美味しかったと
  29.  右側の人に宜しく伝えてください :grin:
  30.  ネタだったはずの、
  31.  From: ひろまさ - 2006/8/7 月曜日 Nighttime (Comment) |Edit This
  32.  そうそう、Otsukare さん車で札幌まできてくれて、すすきので遊(あば)れていかれたんですよ~。 :cool:
  33.  …ボケはこれで良かったでしょうか。(笑)
  34.  現実に。。(笑)
  35.  というわけで、めちゃ楽しいひとときでした。
  36.  この...
  37.  [tegaki]続きはWebで![/tegaki]
  38.  じゃなくて、Otsukare さんの帰還をお待ちください。 写真がいくつかあるハズです。 :-)

これを名詞サマリを指定して REST すると、、

  1.  [0] => Array
  2.      (
  3.          [count] => 8
  4.          [surface] => tegaki
  5.          [pos] => 名詞
  6.      )
  7.  
  8.  [1] => Array
  9.      (
  10.          [count] => 6
  11.          [surface] => Otsukare
  12.          [pos] => 名詞
  13.      )
  14.  
  15.  [2] => Array
  16.      (
  17.          [count] => 4
  18.          [surface] => お店
  19.          [pos] => 名詞
  20.      )
  21.  
  22.  [3] => Array
  23.      (
  24.          [count] => 4
  25.          [surface] => すすきの
  26.          [pos] => 名詞
  27.      )
  28.  
  29.  [4] => Array
  30.      (
  31.          [count] => 4
  32.          [surface] => メール
  33.          [pos] => 名詞
  34.      )
  35.  
  36.  [5] => Array
  37.      (
  38.          [count] => 3
  39.          [surface] => まさ
  40.          [pos] => 名詞
  41.      )
  42.  
  43.  [6] => Array
  44.      (
  45.          [count] => 3
  46.          [surface] => 札幌
  47.          [pos] => 名詞
  48.      )
  49.  
  50.  [7] => Array
  51.      (
  52.          [count] => 2
  53.          [surface] => 2006
  54.          [pos] => 名詞
  55.      )
  56.  
  57.  [8] => Array
  58.      (
  59.          [count] => 2
  60.          [surface] => 8
  61.          [pos] => 名詞
  62.      )
  63.  
  64.  [9] => Array
  65.      (
  66.          [count] => 2
  67.          [surface] => Comment
  68.          [pos] => 名詞
  69.      )
  70.  
  71.  [10] => Array
  72.      (
  73.          [count] => 2
  74.          [surface] => Edit
  75.          [pos] => 名詞
  76.      )
  77.  
  78.  [11] => Array
  79.      (
  80.          [count] => 2
  81.          [surface] => From
  82.          [pos] => 名詞
  83.      )
  84.  
  85.  [12] => Array
  86.      (
  87.          [count] => 2
  88.          [surface] => Love
  89.          [pos] => 名詞
  90.      )
  91.  
  92.  [13] => Array
  93.      (
  94.          [count] => 2
  95.          [surface] => Nighttime
  96.          [pos] => 名詞
  97.      )
  98.  
  99.  [14] => Array
  100.      (
  101.          [count] => 2
  102.          [surface] => This
  103.          [pos] => 名詞
  104.      )
  105.  
  106.  [15] => Array
  107.      (
  108.          [count] => 2
  109.          [surface] => We
  110.          [pos] => 名詞
  111.      )
  112.  
  113.  [16] => Array
  114.      (
  115.          [count] => 2
  116.          [surface] => WordPress
  117.          [pos] => 名詞
  118.      )
  119.  
  120.  [17] => Array
  121.      (
  122.          [count] => 2
  123.          [surface] => お待ち
  124.          [pos] => 名詞
  125.      )
  126.  
  127.  [18] => Array
  128.      (
  129.          [count] => 2
  130.          [surface] => ここ
  131.          [pos] => 名詞
  132.      )
  133.  
  134.  [19] => Array
  135.      (
  136.          [count] => 2
  137.          [surface] => ため
  138.          [pos] => 名詞
  139.      )
  140.  
  141.  [20] => Array
  142.      (
  143.          [count] => 2
  144.          [surface] => エントリ
  145.          [pos] => 名詞
  146.      )
  147.  
  148.  [21] => Array
  149.      (
  150.          [count] => 2
  151.          [surface] => マック
  152.          [pos] => 名詞
  153.      )
  154.  
  155.  [22] => Array
  156.      (
  157.          [count] => 2
  158.          [surface] => 今日
  159.          [pos] => 名詞
  160.      )
  161.  
  162.  [23] => Array
  163.      (
  164.          [count] => 2
  165.          [surface] => 北海道
  166.          [pos] => 名詞
  167.      )
  168.  
  169.  [24] => Array
  170.      (
  171.          [count] => 2
  172.          [surface] => 練習
  173.          [pos] => 名詞
  174.      )
  175.  
  176.  [25] => Array
  177.      (
  178.          [count] => 1
  179.          [surface] => 2
  180.          [pos] => 名詞
  181.      )
  182.  
  183.  [26] => Array
  184.      (
  185.          [count] => 1
  186.          [surface] => 20
  187.          [pos] => 名詞
  188.      )
  189.  
  190.  [27] => Array
  191.      (
  192.          [count] => 1
  193.          [surface] => 29,800
  194.          [pos] => 名詞
  195.      )
  196.  
  197.  [28] => Array
  198.      (
  199.          [count] => 1
  200.          [surface] => 3
  201.          [pos] => 名詞
  202.      )
  203.  
  204.  [29] => Array
  205.      (
  206.          [count] => 1
  207.          [surface] => 30
  208.          [pos] => 名詞
  209.      )
  210.  
  211.  [30] => Array
  212.      (
  213.          [count] => 1
  214.          [surface] => 6
  215.          [pos] => 名詞
  216.      )
  217.  
  218.  [31] => Array
  219.      (
  220.          [count] => 1
  221.          [surface] => 7
  222.          [pos] => 名詞
  223.      )
  224.  
  225.  [32] => Array
  226.      (
  227.          [count] => 1
  228.          [surface] => GYAO
  229.          [pos] => 名詞
  230.      )
  231.  
  232.  [33] => Array
  233.      (
  234.          [count] => 1
  235.          [surface] => Japan
  236.          [pos] => 名詞
  237.      )
  238.  
  239.  [34] => Array
  240.      (
  241.          [count] => 1
  242.          [surface] => Web
  243.          [pos] => 名詞
  244.      )
  245.  
  246.  [35] => Array
  247.      (
  248.          [count] => 1
  249.          [surface] => cool
  250.          [pos] => 名詞
  251.      )
  252.  
  253.  [36] => Array
  254.      (
  255.          [count] => 1
  256.          [surface] => grin
  257.          [pos] => 名詞
  258.      )
  259.  
  260.  [37] => Array
  261.      (
  262.          [count] => 1
  263.          [surface] => hiromasa
  264.          [pos] => 名詞
  265.      )
  266.  
  267.  [38] => Array
  268.      (
  269.          [count] => 1
  270.          [surface] => in
  271.          [pos] => 名詞
  272.      )
  273.  
  274.  [39] => Array
  275.      (
  276.          [count] => 1
  277.          [surface] => zone
  278.          [pos] => 名詞
  279.      )
  280.  
  281.  [40] => Array
  282.      (
  283.          [count] => 1
  284.          [surface] => いかが
  285.          [pos] => 名詞
  286.      )
  287.  
  288.  [41] => Array
  289.      (
  290.          [count] => 1
  291.          [surface] => いくつか
  292.          [pos] => 名詞
  293.      )
  294.  
  295.  [42] => Array
  296.      (
  297.          [count] => 1
  298.          [surface] => うた
  299.          [pos] => 名詞
  300.      )
  301.  
  302.  [43] => Array
  303.      (
  304.          [count] => 1
  305.          [surface] => お客さん
  306.          [pos] => 名詞
  307.      )
  308.  
  309.  [44] => Array
  310.      (
  311.          [count] => 1
  312.          [surface] => お疲れ
  313.          [pos] => 名詞
  314.      )
  315.  
  316.  [45] => Array
  317.      (
  318.          [count] => 1
  319.          [surface] => お迎え
  320.          [pos] => 名詞
  321.      )
  322.  
  323.  [46] => Array
  324.      (
  325.          [count] => 1
  326.          [surface] => お金
  327.          [pos] => 名詞
  328.      )
  329.  
  330.  [47] => Array
  331.      (
  332.          [count] => 1
  333.          [surface] => これ
  334.          [pos] => 名詞
  335.      )
  336.  
  337.  [48] => Array
  338.      (
  339.          [count] => 1
  340.          [surface] => ご飯
  341.          [pos] => 名詞
  342.      )
  343.  
  344.  [49] => Array
  345.      (
  346.          [count] => 1
  347.          [surface] => その後
  348.          [pos] => 名詞
  349.      )
  350.  
  351.  [50] => Array
  352.      (
  353.          [count] => 1
  354.          [surface] => ちき
  355.          [pos] => 名詞
  356.      )
  357.  
  358.  [51] => Array
  359.      (
  360.          [count] => 1
  361.          [surface] => とうもろこし
  362.          [pos] => 名詞
  363.      )
  364.  
  365.  [52] => Array
  366.      (
  367.          [count] => 1
  368.          [surface] => どこ
  369.          [pos] => 名詞
  370.      )
  371.  
  372.  [53] => Array
  373.      (
  374.          [count] => 1
  375.          [surface] => はず
  376.          [pos] => 名詞
  377.      )
  378.  
  379.  [54] => Array
  380.      (
  381.          [count] => 1
  382.          [surface] => ひととき
  383.          [pos] => 名詞
  384.      )
  385.  
  386.  [55] => Array
  387.      (
  388.          [count] => 1
  389.          [surface] => ぷち
  390.          [pos] => 名詞
  391.      )
  392.  
  393.  [56] => Array
  394.      (
  395.          [count] => 1
  396.          [surface] => ぼく
  397.          [pos] => 名詞
  398.      )
  399.  
  400.  [57] => Array
  401.      (
  402.          [count] => 1
  403.          [surface] => まじ
  404.          [pos] => 名詞
  405.      )
  406.  
  407.  [58] => Array
  408.      (
  409.          [count] => 1
  410.          [surface] => めちゃ
  411.          [pos] => 名詞
  412.      )
  413.  
  414.  [59] => Array
  415.      (
  416.          [count] => 1
  417.          [surface] => やぼ
  418.          [pos] => 名詞
  419.      )
  420.  
  421.  [60] => Array
  422.      (
  423.          [count] => 1
  424.          [surface] => わけ
  425.          [pos] => 名詞
  426.      )
  427.  
  428.  [61] => Array
  429.      (
  430.          [count] => 1
  431.          [surface] => イン
  432.          [pos] => 名詞
  433.      )
  434.  
  435.  [62] => Array
  436.      (
  437.          [count] => 1
  438.          [surface] => ウィーク
  439.          [pos] => 名詞
  440.      )
  441.  
  442.  [63] => Array
  443.      (
  444.          [count] => 1
  445.          [surface] => オフ
  446.          [pos] => 名詞
  447.      )
  448.  
  449.  [64] => Array
  450.      (
  451.          [count] => 1
  452.          [surface] => カニ
  453.          [pos] => 名詞
  454.      )
  455.  
  456.  [65] => Array
  457.      (
  458.          [count] => 1
  459.          [surface] => カラオケ
  460.          [pos] => 名詞
  461.      )
  462.  
  463.  [66] => Array
  464.      (
  465.          [count] => 1
  466.          [surface] => ゴールデン
  467.          [pos] => 名詞
  468.      )
  469.  
  470.  [67] => Array
  471.      (
  472.          [count] => 1
  473.          [surface] => スケジュール
  474.          [pos] => 名詞
  475.      )
  476.  
  477.  [68] => Array
  478.      (
  479.          [count] => 1
  480.          [surface] => ツアー
  481.          [pos] => 名詞
  482.      )
  483.  
  484.  [69] => Array
  485.      (
  486.          [count] => 1
  487.          [surface] => ネタ
  488.          [pos] => 名詞
  489.      )
  490.  
  491.  [70] => Array
  492.      (
  493.          [count] => 1
  494.          [surface] => ハケーン
  495.          [pos] => 名詞
  496.      )
  497.  
  498.  [71] => Array
  499.      (
  500.          [count] => 1
  501.          [surface] => ハズ
  502.          [pos] => 名詞
  503.      )
  504.  
  505.  [72] => Array
  506.      (
  507.          [count] => 1
  508.          [surface] => パス
  509.          [pos] => 名詞
  510.      )
  511.  
  512.  [73] => Array
  513.      (
  514.          [count] => 1
  515.          [surface] => パー
  516.          [pos] => 名詞
  517.      )
  518.  
  519.  [74] => Array
  520.      (
  521.          [count] => 1
  522.          [surface] => ビール
  523.          [pos] => 名詞
  524.      )
  525.  
  526.  [75] => Array
  527.      (
  528.          [count] => 1
  529.          [surface] => ブロ
  530.          [pos] => 名詞
  531.      )
  532.  
  533.  [76] => Array
  534.      (
  535.          [count] => 1
  536.          [surface] => ブログ
  537.          [pos] => 名詞
  538.      )
  539.  
  540.  [77] => Array
  541.      (
  542.          [count] => 1
  543.          [surface] => ベータ版
  544.          [pos] => 名詞
  545.      )
  546.  
  547.  [78] => Array
  548.      (
  549.          [count] => 1
  550.          [surface] => ペンギン
  551.          [pos] => 名詞
  552.      )
  553.  
  554.  [79] => Array
  555.      (
  556.          [count] => 1
  557.          [surface] => ボケ
  558.          [pos] => 名詞
  559.      )
  560.  
  561.  [80] => Array
  562.      (
  563.          [count] => 1
  564.          [surface] => モデル
  565.          [pos] => 名詞
  566.      )
  567.  
  568.  [81] => Array
  569.      (
  570.          [count] => 1
  571.          [surface] => ライバル
  572.          [pos] => 名詞
  573.      )
  574.  
  575.  [82] => Array
  576.      (
  577.          [count] => 1
  578.          [surface] => リサーチ
  579.          [pos] => 名詞
  580.      )
  581.  
  582.  [83] => Array
  583.      (
  584.          [count] => 1
  585.          [surface] => リンク
  586.          [pos] => 名詞
  587.      )
  588.  
  589.  [84] => Array
  590.      (
  591.          [count] => 1
  592.          [surface] => 二人
  593.          [pos] => 名詞
  594.      )
  595.  
  596.  [85] => Array
  597.      (
  598.          [count] => 1
  599.          [surface] => 人
  600.          [pos] => 名詞
  601.      )
  602.  
  603.  [86] => Array
  604.      (
  605.          [count] => 1
  606.          [surface] => 今
  607.          [pos] => 名詞
  608.      )
  609.  
  610.  [87] => Array
  611.      (
  612.          [count] => 1
  613.          [surface] => 今年
  614.          [pos] => 名詞
  615.      )
  616.  
  617.  [88] => Array
  618.      (
  619.          [count] => 1
  620.          [surface] => 仕事
  621.          [pos] => 名詞
  622.      )
  623.  
  624.  [89] => Array
  625.      (
  626.          [count] => 1
  627.          [surface] => 以前
  628.          [pos] => 名詞
  629.      )
  630.  
  631.  [90] => Array
  632.      (
  633.          [count] => 1
  634.          [surface] => 何時
  635.          [pos] => 名詞
  636.      )
  637.  
  638.  [91] => Array
  639.      (
  640.          [count] => 1
  641.          [surface] => 信号
  642.          [pos] => 名詞
  643.      )
  644.  
  645.  [92] => Array
  646.      (
  647.          [count] => 1
  648.          [surface] => 入店
  649.          [pos] => 名詞
  650.      )
  651.  
  652.  [93] => Array
  653.      (
  654.          [count] => 1
  655.          [surface] => 写真
  656.          [pos] => 名詞
  657.      )
  658.  
  659.  [94] => Array
  660.      (
  661.          [count] => 1
  662.          [surface] => 利用
  663.          [pos] => 名詞
  664.      )
  665.  
  666.  [95] => Array
  667.      (
  668.          [count] => 1
  669.          [surface] => 到着
  670.          [pos] => 名詞
  671.      )
  672.  
  673.  [96] => Array
  674.      (
  675.          [count] => 1
  676.          [surface] => 前
  677.          [pos] => 名詞
  678.      )
  679.  
  680.  [97] => Array
  681.      (
  682.          [count] => 1
  683.          [surface] => 北
  684.          [pos] => 名詞
  685.      )
  686.  
  687.  [98] => Array
  688.      (
  689.          [count] => 1
  690.          [surface] => 北の
  691.          [pos] => 名詞
  692.      )
  693.  
  694.  [99] => Array
  695.      (
  696.          [count] => 1
  697.          [surface] => 南
  698.          [pos] => 名詞
  699.      )
  700.  
  701.  [100] => Array
  702.      (
  703.          [count] => 1
  704.          [surface] => 去年
  705.          [pos] => 名詞
  706.      )
  707.  
  708.  [101] => Array
  709.      (
  710.          [count] => 1
  711.          [surface] => 右側
  712.          [pos] => 名詞
  713.      )
  714.  
  715.  [102] => Array
  716.      (
  717.          [count] => 1
  718.          [surface] => 合流
  719.          [pos] => 名詞
  720.      )
  721.  
  722.  [103] => Array
  723.      (
  724.          [count] => 1
  725.          [surface] => 向こう
  726.          [pos] => 名詞
  727.      )
  728.  
  729.  [104] => Array
  730.      (
  731.          [count] => 1
  732.          [surface] => 地点
  733.          [pos] => 名詞
  734.      )
  735.  
  736.  [105] => Array
  737.      (
  738.          [count] => 1
  739.          [surface] => 外科
  740.          [pos] => 名詞
  741.      )
  742.  
  743.  [106] => Array
  744.      (
  745.          [count] => 1
  746.          [surface] => 奇跡
  747.          [pos] => 名詞
  748.      )
  749.  
  750.  [107] => Array
  751.      (
  752.          [count] => 1
  753.          [surface] => 女の子
  754.          [pos] => 名詞
  755.      )
  756.  
  757.  [108] => Array
  758.      (
  759.          [count] => 1
  760.          [surface] => 帰還
  761.          [pos] => 名詞
  762.      )
  763.  
  764.  [109] => Array
  765.      (
  766.          [count] => 1
  767.          [surface] => 店員
  768.          [pos] => 名詞
  769.      )
  770.  
  771.  [110] => Array
  772.      (
  773.          [count] => 1
  774.          [surface] => 意
  775.          [pos] => 名詞
  776.      )
  777.  
  778.  [111] => Array
  779.      (
  780.          [count] => 1
  781.          [surface] => 手
  782.          [pos] => 名詞
  783.      )
  784.  
  785.  [112] => Array
  786.      (
  787.          [count] => 1
  788.          [surface] => 携帯
  789.          [pos] => 名詞
  790.      )
  791.  
  792.  [113] => Array
  793.      (
  794.          [count] => 1
  795.          [surface] => 故
  796.          [pos] => 名詞
  797.      )
  798.  
  799.  [114] => Array
  800.      (
  801.          [count] => 1
  802.          [surface] => 整形
  803.          [pos] => 名詞
  804.      )
  805.  
  806.  [115] => Array
  807.      (
  808.          [count] => 1
  809.          [surface] => 日曜日
  810.          [pos] => 名詞
  811.      )
  812.  
  813.  [116] => Array
  814.      (
  815.          [count] => 1
  816.          [surface] => 明日
  817.          [pos] => 名詞
  818.      )
  819.  
  820.  [117] => Array
  821.      (
  822.          [count] => 1
  823.          [surface] => 月曜日
  824.          [pos] => 名詞
  825.      )
  826.  
  827.  [118] => Array
  828.      (
  829.          [count] => 1
  830.          [surface] => 本日
  831.          [pos] => 名詞
  832.      )
  833.  
  834.  [119] => Array
  835.      (
  836.          [count] => 1
  837.          [surface] => 海の
  838.          [pos] => 名詞
  839.      )
  840.  
  841.  [120] => Array
  842.      (
  843.          [count] => 1
  844.          [surface] => 温泉
  845.          [pos] => 名詞
  846.      )
  847.  
  848.  [121] => Array
  849.      (
  850.          [count] => 1
  851.          [surface] => 激安
  852.          [pos] => 名詞
  853.      )
  854.  
  855.  [122] => Array
  856.      (
  857.          [count] => 1
  858.          [surface] => 無事
  859.          [pos] => 名詞
  860.      )
  861.  
  862.  [123] => Array
  863.      (
  864.          [count] => 1
  865.          [surface] => 現実
  866.          [pos] => 名詞
  867.      )
  868.  
  869.  [124] => Array
  870.      (
  871.          [count] => 1
  872.          [surface] => 祝日
  873.          [pos] => 名詞
  874.      )
  875.  
  876.  [125] => Array
  877.      (
  878.          [count] => 1
  879.          [surface] => 続き
  880.          [pos] => 名詞
  881.      )
  882.  
  883.  [126] => Array
  884.      (
  885.          [count] => 1
  886.          [surface] => 総動員
  887.          [pos] => 名詞
  888.      )
  889.  
  890.  [127] => Array
  891.      (
  892.          [count] => 1
  893.          [surface] => 要件
  894.          [pos] => 名詞
  895.      )
  896.  
  897.  [128] => Array
  898.      (
  899.          [count] => 1
  900.          [surface] => 谷間
  901.          [pos] => 名詞
  902.      )
  903.  
  904.  [129] => Array
  905.      (
  906.          [count] => 1
  907.          [surface] => 車
  908.          [pos] => 名詞
  909.      )
  910.  
  911.  [130] => Array
  912.      (
  913.          [count] => 1
  914.          [surface] => 近く
  915.          [pos] => 名詞
  916.      )
  917.  
  918.  [131] => Array
  919.      (
  920.          [count] => 1
  921.          [surface] => 途中
  922.          [pos] => 名詞
  923.      )
  924.  
  925.  [132] => Array
  926.      (
  927.          [count] => 1
  928.          [surface] => 連絡
  929.          [pos] => 名詞
  930.      )
  931.  
  932.  [133] => Array
  933.      (
  934.          [count] => 1
  935.          [surface] => 遊
  936.          [pos] => 名詞
  937.      )
  938.  
  939.  [134] => Array
  940.      (
  941.          [count] => 1
  942.          [surface] => 道
  943.          [pos] => 名詞
  944.      )
  945.  
  946.  [135] => Array
  947.      (
  948.          [count] => 1
  949.          [surface] => 関係
  950.          [pos] => 名詞
  951.      )
  952.  
  953.  [136] => Array
  954.      (
  955.          [count] => 1
  956.          [surface] => 馬
  957.          [pos] => 名詞
  958.      )

なんて返ってきます。(返りはほんとは XML です。 PEAR を使って PHP 側で配列に変換している) wp-tegaki のタグが入っているのはご愛敬。

“すすきの”、”ベータ版” 、”お客さん”、”女の子” などが一つの名詞として認識されていますが、これはちゃんと辞書をもっていないと実現できないことですね。 29,800 なんてのもちゃんとくっついてひとつになっています。

あと爆速で一瞬で結果が返ってきます。 すげーな、これ。。

昨日も書きましたが、関連エントリや自動タグ付け、その他もろもろアイディア次第でいろいろできるのではないかと思います。 よしともさんEntryKeywords 形式でいれるのも汎用性あってよさそうですね~。

もんもんと考えてみることにします。 🙂

2007/6/20 Wednesday 投稿時の月齢:5.0  月名:六日月  潮汐:中潮 Moon:5.0[六日月]今日の心技体 : 好調前不安定期好調期低調期

カテゴリとタグと関連エントリと… このエントリをはてなブックマークに追加このエントリをdel.icio.usに追加

日記 - 晴時々曇(25/16) ひろまさ @ 2:45

ものぐさなひろまさのブログは見ての通り、タグはおろかカテゴリさえありません。 あのエントリどこだっけ?とか、あれ系の話って何書いたっけとか、、もう自身でさえ探せない状態. 頼りの検索窓も、どうも MySQL は日本語の検索がへたで、うまく当たらないこともしばしば. さぁどうしたもんか。

そもそもタグとかカテゴリとか手でちゃんとつければだいぶ違うってもんなんですが、もう 1000 近くエントリもあるのでやすやすと品行方正もできず。 せっかくコンピュータ使っているのでなんとか自動化できないかと昔からいろいろやっていたのです。

いくつかアイディアはあって、

その1。

Search Word Highlight で検索エンジンからの検索語がひろえるので、検索語で多いやつをタグにしてエントリにつけちゃえばいいんじゃん? これならほっとけば(もしかすると自分でやるよりも)適切に勝手にタグつくぞ。 🙂

その2。

気合いでエントリの日本語解析して、頻出単語をタグにする案。

ってのがありました。

その1は、面白そうなんだけど、誰も検索してこないエントリはなんもつかないのでボツ。(いや、”つかない”という意味があるのかもしれないけれども…) あと、仕組みばれると REFFER 改ざんしてへんなタグつけられたくらいにして(笑)

その2はちょっと実装したことがあります。 あれは、2005年の 7月。

hiromasa.zone :o) ≫ WordPress Related Entries for J (仮称)

文字種(漢字とかカタカナとか)で切り出した後部分抽出をして、出現数、長さ、文字種等でそのエントリの用語ランキングを生成します。 同様にして事前にインデックス化した各エントリと比較して関連エントリを出力する仕組みです。

結構がんばって作った覚えがあるのです。

がんばった

よくみると、なんちゃってにしては割とうまく文字をスプリットして頻出ごとに並べられています。 ちなみに、ソースはどっかにいってしまいどーやっていたかはよく覚えていません。(笑)

で、これでも良かったのですが、エントリ解析にメモリが結構必要でここのサーバで動かすとおっこっちゃうことが発覚してあえなくボツになりました。。

じゃー、外部で本物の形態素分析してあげればって思ったんですが、専用サーバでもない限りそういったソフトはいれられないので、、困ったなと思っていたら、なんと Yahoo! から ASP ででてきたようです。 🙂

Yahoo!デベロッパーネットワーク – テキスト解析 – 日本語形態素解析

日本語文を形態素に分割し、品詞、読みがなの付与、統計情報を取得できる機能を提供します。

これは面白そうですね!

エントリをたべさせて、品詞/名詞をサマって上位3、4コをタグとして採用するとか自動でできそうです。 タイトルにある文字列は強くするとか、考えると結構奥深そう。

エントリの種別さえ分かってしまえば、関連エントリも同時に出したりできるわけで、2年越しの夢かなうか!?

まさに JSeries なので是非つくってみたいな~。 半日あればできるだろうけど、燃え尽きたのか、なんなのか、どうも最近気力がないのがたまにきず。 🙂

2007/6/17 Sunday 投稿時の月齢:2.6  月名:三日月  潮汐:中潮 Moon:2.6[三日月]今日の心技体 : 低調期好調期好調期

From Forza2 with WordPress ISM このエントリをはてなブックマークに追加このエントリをdel.icio.usに追加

日記 - 晴れ ひろまさ @ 18:14

噂のXBOX360 のレースゲーム、Forza2 を買ってきました。 すごすなー、これ、、なんでも本職のレーサーがやってもちゃんと速く走れるらしいという恐るべきリアリティー、そして AI で動く敵車はちゃんと考えて動き、さながら本物のレースをやっているようです! サーキットで相手の車を抜くのって大変なのね。。

昨日、すこしライブで対人対戦もしてみましたが、これまたやばいくらい面白い。 遅延もまったくなく、初代 Xbox で培われた、XBox Live の技術をかいま見ました。 日本ではライトゲームは Wii で、ヘビーなネットワークゲームは 360 でみたいなのりになってきましたね。

Forza2 をこんなに有名にした要因の一つは、ユーザによる車ペイント。 丸とか四角のデカールを、伸張回転。。 ただそれだけなのに、なんで絵が描けるんだ! ぼくもちょっとやってみましたが、

むりむりむりむり

今なお、増えていくペイント車。 みんなスゴス。

Forza Motorsports 2 画像うp

ぼくもなんも描かないのは寂しいので標準のデカールを組み合わせて作ってみました。

エボ

…。 せっかく描いたのに見えない(笑) ちなみに、ゲーム内のカメラで撮った画像をインターネット上にそのまんま JPEG 保存してくれるという機能があるのです。

シルビア

あのロゴで描ければ格好いいんだけどな~。

てなわけで、ライブでは WordPress ISM つけて走ることにします。 みつけてもぶつけないでね。。 🙂

2007/6/14 Thursday 投稿時の月齢:28.3  月名:二十九日月  潮汐:大潮 Moon:28.3[二十九日月]今日の心技体 : 低調期好調期好調期

AJAX の Web メールクライアント – RoundCube – このエントリをはてなブックマークに追加このエントリをdel.icio.usに追加

日記 - 晴のち曇(25/16) ひろまさ @ 1:25

家の中に PC が何台もあると、データの一元管理が結構大変! ファイルであったり、メールであったり、RSS の未読であったり、いろいろあるので、集約のために我が家には Linux で構築されたサーバが一台あります。 インターネットの ASP 使えばいいじゃんって話もあるのですが、メールとか結構クリティカルな部分もありますし、手元にあった方がデータ加工が用意なのでなるべく手元に置くようにしています。(なんていったら、Google Gear ってのがでてきましたね 🙂

うちのサーバ

横になっているのが、Linux (CentOS) のサーバです。 これが壊れるとなけるので、データドライブは RAID 1 のミラーをしています。

これにのっているアプリケーションですが、

  1. メール全アカウントは代表してこのサーバが POP してきて、ローカルにスプール & スプールしたメールを IMAP で LAN 内に公開
  2. Windows ファイル共有
  3. RSS リーダ
  4. IMAP ですらメールクライアント設定するのが面倒な時用の、Web IMAP クライアント

上二つは、fetchmai & postfix & dovecot(IMAP) と、samba で実現しています。 

RSS リーダは、前にもちょっとでてきていた Gregarius。 明らかに WordPress を意識した作りになっていて、プラグインとかテーマとかがそっくりな仕組みで使えます。(なので好きにいじれる。)

Gregarius

で、Web IMAP クライアントですがいままでは、会社のイントラでもよく使われているのをみる SquirrelMail を使っていました。

SquirrelMail

でふと今日なんとなく、今なら AJAX ものあるんじゃないかなーって思って調べたら、あるじゃないですか~。

RoundCube Webmail Project

RoundCube Webmail is a browser-based multilingual IMAP client with an application-like user interface. It provides full functionality you expect from an e-mail client, including MIME support, address book, folder manipulation, message searching and spell checking. RoundCube Webmail is written in PHP and requires a MySQL or Postgres database. The user interface is fully skinnable using XHTML and CSS 2.

しかも、かなーりおしゃれ。 早速導入。 🙂

RoundCube

まだ version 0.1 でなにげに 非AJAX のSquirrelMail のほうが速いような気もしなくもないのですが、画面がおしゃれで気に入っています。 こっちでいってみましょう。

データを全部、ワークステーションの PC より外にだしちゃうと、安心して PC いじれるという精神衛生上いい点もあります。 たとえば、いくらでも再インストールできるとか。

ASP とローカル保存の折衷案みたいなもんですが、使い勝手は良いので古い PC とか、玄箱とか持っている方は、それをサーバにして、こんな感じでアプリ入れてみるといいかもしれません。 🙂

2007/6/10 Sunday 投稿時の月齢:24.5  月名:二十五日月  潮汐:長潮 Moon:24.5[二十五日月]今日の心技体 : 低調期低調期好調期

オブジェクト指向と RDBMS このエントリをはてなブックマークに追加このエントリをdel.icio.usに追加

日記 - 晴時々曇 ひろまさ @ 7:05

オブジェクト指向と RDBMS のインピーダンスミスマッチの件についてはもういろんなところで書き尽くされていて、ここで書くようなことでもないのですが、後で「あのころは若かった」とか思えるので自分用にメモしてみる。 

オブジェクト指向というのは、クラスと呼ばれるくくりの中に、データとそれについての処理をパックして記述できるプログラム言語仕様のひとつです。 PHP でも一部実装されています。

この設計の根底にある思想は “それに関する処理は同一箇所に書こう” だと思います。 オブジェクト指向を使うと、手続き型では実現できない部分まで “それに関する処理は同一箇所に” まとめて書くことができます。

趣味でやっていると、手続き型は分かるけどオブジェクト指向は分からないという人も結構いると思いますが、まずは使いどころをこの “それに関する処理は同一箇所に書ける構文” として考えればスッと入れるです。 よく”果物”基底クラスをつくって、それを継承して、”りんご”クラスと”すいか”クラスをつくる、、とかって解説がありますが、あれは分かっている人しか分からない説明…。 そんなプログラムつくらんって(笑

ブログシステムのオブジェクト構成

これならきっと分かる。

たとえば、サイト管理者が入力するエントリと、読者が入力するコメントを例に。 両方ともいろいろデータ要素はありますが、それぞれ似たような情報を持ちます。 名前、入力日付、等々基本的なものはいっしょ。 逆に差異を考えると、たとえばエントリにはタイトルがあったりカテゴリがあったり。 

じゃー共通部分を”基底”クラスにしよう。 いっしょなんだし。 で、クラスはデータだけじゃなくて処理も一緒に書けるので、投稿のタグのチェックとか今の日付の取得いれちゃえ。 そんなの一カ所にしか書きたくない。 クラスの名前は BlogDocument クラスだ。

  1.  class BlogDocument {
  2.      // データ
  3.      var $content;
  4.      var $date;
  5.      var $auther;
  6.      // 処理
  7.      function setContent($content) {
  8.          $this->content = タグ処理しろ($content);
  9.      }
  10.      function setDate() {
  11.          $this->date = 今の時間();
  12.      }
  13.      ...略
  14.  }

とこんな感じに。 で、実際のエントリクラスとコメントクラスを BlogDocument から”継承”します。 差分があれば追加。

  1.  class BlogEntry extends BlogDocument {
  2.      // データ
  3.      var $title;
  4.      var $category;
  5.      // 処理
  6.      ...略
  7.  }
  8.  
  9.  class BlogComment extends BlogDocument {
  10.      // BlogDocument と同じだからからっぽ
  11.  }

とか、ね。

似たような性質を持つものの処理を分散することなく記述できるのがオブジェクト指向の強みです。 で、これらのオブジェクトを必要な数だけ(エントリとかコメント数ぶん)実体化(インスタンスをつくる)してあげれば、ブログの内部構造はできて、これに入出力をしてあげれば動き出します。

もうちょっと書くと、処理で2つのクラスの差分を意識しなくていい場合はそれぞれは基底クラスとして処理ができる。 要は見た目違うものなのに、同じループで BlogEntry も BlogComment も BlogDocument として処理できるというトリックも使えます。(ならではの格好いいトリックは他にもまだまだあるです)

上はあくまでイメージで、たとえば BlogDocument には親子関係を持たせないと、どれがどのコメントかわからんとかいろいろでてきます。 じゃー、BlogDocument の中にさらに子になる BlogDocument もたせちゃお、とか。 クラス設計していると結構楽しいのですが・・・。(ちなみに WP は、エントリとコメントは別扱いです)

こんなことをやっていると、ひとつの大きな壁が立ちはだかります。

RDBMS

リレーショナルデータベース。 WP なら MySQL。

プログラムで作られたオブジェクトというのは、メモリ空間に存在します。 ということで、プログラムが終わったらぜんぶ、ぱー。

PHP/Web 環境は、アプリケーションコンテナを持たないので、Web アクセス終了と同時にオブジェクトは破棄。消失。 せっかくシステムが動いたのに、ひとっつもエントリを保存できないで終わります。 とほほ。

Java 環境とかだと、アプリケーションコンテナが使えるのでアプリは起動しっぱなしにできる。 なので、起動している間は覚えておけますが、それでも終わらせればなくなってしまいます。

どちらにしろ、なにかしら保存する手段が必要ってことで、RDBMS が登場してきます。

つくったオブジェクトをそのまんま RDBMS に保存(永続化)できればいいのですが、データベースはご存じの通り2次元のテーブル構成。 書き込む処理系は SQL。

オブジェクトは、継承ができたり、その中にさらにオブジェクトを持てたりしてツリー的なときもあって、そもそも2次元にそのまんまはいらないし、そうでないときもわざわざ SQL を生成して RDBMS のテーブル構成に合わせて保存処理をかかなきゃいけません。 これが、インピーダンスミスマッチ。 異なるものの対応処理をしなければならないのです。

ぼく的には、オブジェクトの管理はメモリでやっとけ。 足りなくなったらいい感じに仮想メモリつかえ。 アプリ落ちるときは、適当にシリアライズして保存しとけ。 起動するときは元に戻せよ。 みたいになってくれると嬉しいのですが、まぁまぁそうもいかない事情があります。

というわけで、保存処理を簡略化しようという動きが O/R マッピングツールというやつです。 有名なのは hibernate とか。

@IT:Hibernateで理解するO/Rマッピング(1)

O/Rマッピング(=Object / Relational Mappingの略称でORMと略されることもあります)とは、オブジェクト指向言語で扱う「オブジェクト」と「リレーショナルデータベース(RDB)のレコード」をマッピング(対応付け)することです。アプリケーションにO/Rマッピングを導入することで、オブジェクトへのデータ取得やオブジェクトデータの永続化といった処理を透過的に行うことができるようになります。またO/Rマッピングはプログラミングでのデータベース操作にかかわる煩雑な作業を軽減し、拡張性・柔軟性を持ったアプリケーションの構築をサポートします。

データベースには SQL を発行せず、いくつかのマッピングを書くことで永続化が可能。 データ検索も、(みため)オブジェクトに対して HQL とよばれる SQL に似た検索クエリーをなげると、ちゃんとオブジェクトに返ってきます。

弱点は、マッピングを作らなければいけないことと、やっぱりなにより RDBMS の制約、2次元を意識しなければいけないので、データベースよりのオブジェクト設計を強いられることです。 自由には行かない。

ってことで、ちょっと前に流行りかけたのがオブジェクトデータベース。 RDBMS じゃ無理だから、オブジェクトそのまんま永続化してあげるよってのがコンセプト。 まだちゃんと開発が進んでいるのに、db4o というのがあるようです。

IBM 多忙な Java 開発者のための db4o ガイド: 紹介と概要 – Japan

しかし、たとえ Hibernate (あるいは JPA や JDO、Castor JDO、Toplink あるいはどのような ORM ツール) を使ったとしても、マッピングの問題がなくなることはなく、単に構成ファイルの中に問題が移動するだけです。しかも、不適切なツールを無理やり使っているという感覚が避けられません。例えば、適切に階層化された継承モデルを作成しようとする場合、そのモデルを 1 つあるいは一連の表にマップするためには、どれも醜悪な選択肢を比較検討して 1 つを選ばなければなりません。クエリーのパフォーマンスと通常のフォームに違反することのどちらを重視するかをめぐって、どこかの時点で DBA と開発者が戦う羽目になります。

IBM のこの手の記事は読んでいておもしろいですね。 🙂

で、これを使えばハッピーになれるかというと、やったことないけど、方式的な不具合がない限りはそのアプリケーションにとってはハッピーなんだと思う。

ただ、ぱっと思いつくのがそのアプリ以外のインターフェースを使った検索やデータの修正がある場合。 そして、これはよくあるケース。

やっぱり、2次元の RDBMS は管理しやすいじゃないかなとか。 データのパッチとかいくらでもできるし、SQL からの検索は枯れたものだし、直感的です。

うーむ。

なんて考えている時間が案外好きだったりするんですが、、 うわ、なげっ。 って朝だ。 😛

このサイトについて

このブログは引っ越しを行いコンテンツはフリーズしています。hiromasa.anotherへどうぞ。

Powerd By WordPress

We (Heart) WordPress

WordPressME Logo
WordPress Plugins

ブログ内検索

Todays Popular

WordPress Ring

はてなリング - WordPress -

情報

19 queries. 0.137 seconds.

このページの先頭へ