GetSenでもうちょっと遊んでみようってことで、GetSen Readerをつくってみました。
(サンプル)
FPNを流し読み
うーん、いい感じかも
100SHIKIを流し読み
目をひく(が中身がわかりにくい)タイトルに対しズバリの一文が抜け出せてる、と思わない?
PHP+XML/RPC(Pear)+MagpieRSSで、なかなかの生産性です。
(6/13 100SHIKIを追加)
(6/18 Open Alexandriaを追加)
(2/25/2008 いろいろ削除)
GetSenでもうちょっと遊んでみようってことで、GetSen Readerをつくってみました。
(サンプル)
FPNを流し読み
うーん、いい感じかも
100SHIKIを流し読み
目をひく(が中身がわかりにくい)タイトルに対しズバリの一文が抜け出せてる、と思わない?
PHP+XML/RPC(Pear)+MagpieRSSで、なかなかの生産性です。
(6/13 100SHIKIを追加)
(6/18 Open Alexandriaを追加)
(2/25/2008 いろいろ削除)
以前書いてたやつ、とりあえず公開です。
とりあえず使ってみるには、GetSenフォームインターフェースをどうぞ
GetSenとは Get Sentence の略で、複数の文で構成される日本語の文章から、代表的な一文を機械的に取り出すためのひとつの実装です。
なんでこんなのつくったの?
専門用語(キーワード)自動抽出システムを見てムラムラしたからです。名前もGensenをパチってます。
あと、RSS の description の自然言語要約を AppleScript に任せた を見て、AppleScriptが羨ましくなったのですが、そんなことのためにOSXを買うわけにもいかず、また、AppleScript同様にベクトル演算して抽出するのも芸がないような気がしたので、単純な実装をしてみたのです。
フォームインターフェース以外の方法で使わせてください
ってゆう人が多かったら考えます。ってゆーか今時はXMLRPCとかがいいの?SOAPは勘弁してくれますか?
じゃ、ソースコードください
えーと、一部勤務先で書いたものが含まれていて、ライセンスの関係で厳しいのです。
けど、実装は上に書いた通りで簡単なので、自分でやってください。
意味がさっぱりわかりません
ごめんなさい。
文句がいいたいんですけど・・・
お手数ですけどコメントでもトラックバックでもしてください。
で、これどーやって遊ぶの?
たとえば、新聞社の記事を丸ごといれると、かなりイイ感じに重要なセンテンスを抽出できます。
記事の見出しとこれで抽出した文だけ流し読みすれば、ニュースジャンキーにはたまらない感じですよ。
これをRSSリーダに組み込めば、contentからイイ感じに要約できる可能性がちょっとだけある気がします。
あと、自分で適当に書いた文章を入れてみると、いかに自分の文章が何が言いたいのかわからないってことがわかっていいかも。