Information Retrieval


ついに明かされるGoogle Newsの秘密

本文中に出てくる

「Information Retrieval」(情報の取り出し)

ってので思い出した。
未来世紀ブラジルで、「Information Retrieval」が「情報剥奪局」ってかなり激しい翻訳になってたことを。

ってのはおいといて、以前“専門用語(キーワード)自動抽出システム”に触発されてつくった、センテンス抽出システムというか、テキストの要約取り出しというか、GenSenの名前をパロってGetSenって名前にした仕組みを公開せねば!というのを思い出した。

以前テストしてみたときの記憶では

ねこめしにっきさんとこの
RSS の description の自然言語要約を AppleScript に任せた

ってので出てくる要約とほぼ同じ精度だった気がします。
だからそんなに面白くないかもしれないし、目新しくないだろうけど、OSXがなくても日本語のtext summarizeができるってだけでもいいよね?

関連記事

4個のコメント

  1. 2005 年 5 月 29 日 11:10 PM に投稿 | パーマリンク

    うん。いいぞ。そんなもんや。

    しかし・・・php5でchasenをつかいたいが、まったく動かん。
    あたまきてextを書こうかと思ってZend2 APIのドキュメントを探すがまったくみつからん。
    焦燥感にかられ、php5の標準extのソースを見てみるが、php4のextとの違いがまったくわからん。
    ・・・イキオイで愚痴を言ってみました(w

  2. 2005 年 5 月 30 日 12:16 AM に投稿 | パーマリンク

    やっぱ別プロセスでいいんでないの?
    tcpserverで別のマシンで動かすとか、お気楽分散処理もいーかも。

  3. 2005 年 5 月 30 日 1:00 AM に投稿 | パーマリンク

    「libchasen をリンクしようとすると「Undefined Symbol “cerr”」みたいなエラーがでる」ってFAQをchasenのHPでみつけた。
    出るエラーがそれに似てたので、configureでできたmakefileにlibstdc++をリンクするように変更。
    ・・・見事、成功。できたよ♪
    zend2のせいじゃなかった。。。俺の脳みそが硬いのが問題だった・・・(ずっと「php chasen」とか検索しちゃう硬さね)

  4. 2005 年 5 月 30 日 10:27 PM に投稿 | パーマリンク

    愚痴言った手前、落とし前ってことでまとめておきましたっ!!(↑)

1個のトラックバック

  1. PHPWalker さんからのコメント 2005 年 5 月 30 日, 10:26 PM

    PHP5でchasenを使う

    chasenは、みなさんおなじみのオープンソースな形態素解析システムです。
    辞書・文法定義にそって、日本語文章を単語毎に切り出してくれます。

    このchasenをphpから直接つかう為にはchasen本体とphpがデータ…