本文中に出てくる
「Information Retrieval」(情報の取り出し)
ってので思い出した。
未来世紀ブラジルで、「Information Retrieval」が「情報剥奪局」ってかなり激しい翻訳になってたことを。
ってのはおいといて、以前“専門用語(キーワード)自動抽出システム”に触発されてつくった、センテンス抽出システムというか、テキストの要約取り出しというか、GenSenの名前をパロってGetSenって名前にした仕組みを公開せねば!というのを思い出した。
以前テストしてみたときの記憶では
ってので出てくる要約とほぼ同じ精度だった気がします。
だからそんなに面白くないかもしれないし、目新しくないだろうけど、OSXがなくても日本語のtext summarizeができるってだけでもいいよね?
4個のコメント
うん。いいぞ。そんなもんや。
しかし・・・php5でchasenをつかいたいが、まったく動かん。
あたまきてextを書こうかと思ってZend2 APIのドキュメントを探すがまったくみつからん。
焦燥感にかられ、php5の標準extのソースを見てみるが、php4のextとの違いがまったくわからん。
・・・イキオイで愚痴を言ってみました(w
やっぱ別プロセスでいいんでないの?
tcpserverで別のマシンで動かすとか、お気楽分散処理もいーかも。
「libchasen をリンクしようとすると「Undefined Symbol “cerr”」みたいなエラーがでる」ってFAQをchasenのHPでみつけた。
出るエラーがそれに似てたので、configureでできたmakefileにlibstdc++をリンクするように変更。
・・・見事、成功。できたよ♪
zend2のせいじゃなかった。。。俺の脳みそが硬いのが問題だった・・・(ずっと「php chasen」とか検索しちゃう硬さね)
愚痴言った手前、落とし前ってことでまとめておきましたっ!!(↑)
1個のトラックバック
PHP5でchasenを使う
chasenは、みなさんおなじみのオープンソースな形態素解析システムです。
辞書・文法定義にそって、日本語文章を単語毎に切り出してくれます。
このchasenをphpから直接つかう為にはchasen本体とphpがデータ…