タグのアーカイブ: getsen (RSS)

GetSenでRSS/ATOMフィードを流し読み


GetSenでもうちょっと遊んでみようってことで、GetSen Readerをつくってみました。

(サンプル)
FPNを流し読み
うーん、いい感じかも

100SHIKIを流し読み
目をひく(が中身がわかりにくい)タイトルに対しズバリの一文が抜け出せてる、と思わない?

PHP+XML/RPC(Pear)+MagpieRSSで、なかなかの生産性です。

(6/13 100SHIKIを追加)
(6/18 Open Alexandriaを追加)

(2/25/2008 いろいろ削除)

GetSen XML-RPC API


GetSenのXML-RPCインターフェースをおいときます
続きを読む »

GetSenで自分のエントリを切り出す


じゃ、さらにGetSenで自分のblogのエントリを切り出してみます。同様にタイトルと抽出されたサマリを引用していきます。
はたして僕の文章は何かを誰かに伝えようとしているのでしょうか?
続きを読む »

GetSenでアノ人のblogを切り出す

じゃ、次はGetSenでblogのエントリを切り出してみます。新聞記事と同様にタイトルと抽出されたサマリを引用していきます。
blogというのは、その人の人間性がでるなんていわれたりしますが、この機械的なGetSenが人間性を計ることができるとは到底思えません。どうなるんでしょう?
続きを読む »

GetSenで新聞記事を切り出す

GetSenで新聞記事を切り出す例として、対象記事の見出しと抽出されたサマリを引用していきます
基本的に新聞記事という文章では、最初の一文に重要なことを書くように求められるわけですが、そういう具合いになっているというのがわかります。
続きを読む »

GetSen 日本語文章サマリ抽出システム

以前書いてたやつ、とりあえず公開です。
とりあえず使ってみるには、GetSenフォームインターフェースをどうぞ

GetSenとは?

GetSenとは Get Sentence の略で、複数の文で構成される日本語の文章から、代表的な一文を機械的に取り出すためのひとつの実装です。

GetSenの仕組み

  1. 文章を文に分割します
  2. 専門用語(キーワード)自動抽出システムと同じ仕組みでキーワードおよび単語のスコアリングを行います。
  3. 文中に含まれるキーワードと単語から、文そのものスコアを決定します。
  4. 文のスコアが一番高いものを、要約文とみなします

よくあるんじゃないかって思った質問と回答

なんでこんなのつくったの?
専門用語(キーワード)自動抽出システムを見てムラムラしたからです。名前もGensenをパチってます。
あと、RSS の description の自然言語要約を AppleScript に任せた を見て、AppleScriptが羨ましくなったのですが、そんなことのためにOSXを買うわけにもいかず、また、AppleScript同様にベクトル演算して抽出するのも芸がないような気がしたので、単純な実装をしてみたのです。

フォームインターフェース以外の方法で使わせてください
ってゆう人が多かったら考えます。ってゆーか今時はXMLRPCとかがいいの?SOAPは勘弁してくれますか?

じゃ、ソースコードください
えーと、一部勤務先で書いたものが含まれていて、ライセンスの関係で厳しいのです。
けど、実装は上に書いた通りで簡単なので、自分でやってください。

意味がさっぱりわかりません
ごめんなさい。

文句がいいたいんですけど・・・
お手数ですけどコメントでもトラックバックでもしてください。

で、これどーやって遊ぶの?
たとえば、新聞社の記事を丸ごといれると、かなりイイ感じに重要なセンテンスを抽出できます。
記事の見出しとこれで抽出した文だけ流し読みすれば、ニュースジャンキーにはたまらない感じですよ。
これをRSSリーダに組み込めば、contentからイイ感じに要約できる可能性がちょっとだけある気がします。
あと、自分で適当に書いた文章を入れてみると、いかに自分の文章が何が言いたいのかわからないってことがわかっていいかも。