タグのアーカイブ: feed (RSS)

へんなfeed


日本のブログサービスではRSS1.0を採用してるところが多いそうだ
嘘か真か知らないが、理由はkanzaki.comやhyuki.comなどの日本語のコンテンツで、RSS2.0じゃなくRSS1.0の解説が多かったからだとか
何を見てフィードをつくってもいいと思うし、どのフィードをサポートするのも自由だとは思うけど、変な実装は困るよね

gooブログのフィードの場合
RSS1.0を採用しているが、タイトル中のに勝手に変換してる、よくわからない仕様
自前で実装してサニタイズしてる間にこんなことになってしまったんだろうか?
こういうのを見ると文字の扱いを全然知らない人が実装してるんじゃないの?って感じて、逆に脆弱性ありそうに思える

amebloのフィードの場合
負荷が大変だそうで

現在、サーバ負荷軽減のため、19:00-25:00の間、RSS配信を一時的に停止させていただいております。

なんて出すのはいいけど、HTTPのステータスコード200のままこんなの返すなっつーの
200のままエラーを返すと、フィードリーダーで読んでる人間は読めばわかるかもしれないけど、ロボットの類は全滅というか、そのままキャッシュしてしまうわけです
こんなの返すなら503あたりを使うべきですな

tDiaryによる某php関連日記のフィード購読を取り止め


コメントスパムが多いので、tDiaryで運営されてる某php関連日記の購読を取り止めました

通常読んでいるブログにコメントスパムが多くても見なけりゃいいだけなんで関係ないんだけど、tDiaryの仕様なのかコメントも1エントリとしてRSSフィードに含まれるため、フィードリーダで読むと大変うざったいことになるのです

もちろん、日記を書いてる本人にとっても迷惑なんだろうけど、読者にも迷惑
tDiaryの仕様とは言え、スパムを含むコメントもRSSフィードに含まれている現状では、読者にコメントスパムを配信しているのは日記を運営している人になっちゃうわけです

これは、ウイルスやボットに感染しているPCをほったらかしにしているのと同レベルとまではいわないまでも、それとよく似た状況ですね

昨日書いたアフィリエイト関連運営者への苦言にも関連するような・・・

いまやスパムとの戦い方は、個人レベルでも会社や団体による運営レベルでも、必須のスキルといえますね

XML_Feed_Parserでdc:subject要素を読み込む


はてブからdel.icio.usに移行したのですが、両方APIが公開されているおかげで移行が楽チンでした。

移行スクリプトは勉強のために(?)pythonで書こうかと思ったのですが、また今月は仕事でphpを書くことになったので、しばらくphp漬けになるためにもphpで書くことに(笑)
続きを読む »

MagpieRSSが嫌われた?

ベイエリアPlanetに追加したHAKさんのMy life as an APEというサイト、実は登録依頼は先月にあって、フィードはすぐ追加したんだけどなぜかfetchがうまくできてなかったのです。

引越しの忙しさもあって、なかなか調べられなかったんだけど、どうやらwablogがMagpieRSSからのアクセスに対して403 Forbiddenを返してるということが判明!

wablogに連絡して理由をきいてみたい気もしたんだけど、変なアクセスポリシーもまぁ人それぞれだろうなってことで、MagpieRSSをrequireする前に
define('MAGPIE_USER_AGENT', 'Mozilla/4.0 (compatible; rss_fetch;)');
ってしておくことにしました。

plnet.jpでフィードをまとめる!

plnet.jpりょすけPlnetをつくってみました

このブログを含めた6個のフィード

  • ほそいりょすけのほめぱげ (このブログ)
  • りょすけshared item (Google Reader)
  • rhosoi’s photo (flickr)
  • りょすけBookmark (hatena bookmark)
  • ryoの日記 (slashdot.jp)
  • りょすけ?d (hatena diary)

をまとめて一覧できてしまいます。

これで僕がサービスを使い分けてる様子が手に取るようにわかり、どんなに裏表のある人間かバレてしまうわけです!(あれ?)

あ、mixiの日記は友達の友達まで公開にしてるんで、ここに入れるのやめときました。

新Google Readerに引越した

RSSリーダーですが、以前インストールしたtt-rssが、登録フィードが増えるたびに「updating feeds…」って待ち時間やたら長くなってきたり、細かいバージョンアップがあるわりに一向に軽くならなかったりというところに、Google Readerが新しくなったとのことで、乗り換えてみました。

かなり軽いインターフェースで、tt-rssに比べて半分ぐらいの時間で巡回できた気がします(あくまでも気がするだけで、計ってないです)

あえて文句をいうと、shared itemsってソーシャルブックマーク的に公開ができるのはいいけど、URLをなんとかしたい(どうせなら www.google.com/reader/shared/rhosoi なんてのがいい)のと、Google Readerで読んだモノしか対象にできないのがちょっとなぁ・・・使いどころがわからんという感じでしょうか?

RSSリーダーを未だに使ってないという人は、@akaさんの@ 新 Google Reader でフィードを読むって記事をよんでみるといいかも

# そういえばPlagger+IMAPは・・・動かすのに適したマシンがなかったので保留してます(CPANモジュール多すぎ・・・)

Tiny Tiny RSS使用中

RSSリーダーで悩むわけであります

リーダーで読むけどやっぱり結局ブラウザで見るんで、はてなRSSでシンプル表示ばっかりにしたのりょすけRSSでもけっこうイケてるんだけど、やっぱりなんか自前でやってみたくなるわけで、Tiny Tiny RSSを自分のサーバにインストールしてみた
php+PostgreSQL(or MySQL)で動くサーバサイドスクリプトなんだけど、いわゆるAJAXを駆使した作りになってて、なかなか良い感じだ
ただし、やはり全文フィードしてないサイトだと結局見に行くことになるので、はてなRSSとはそのあたりを意識して使い分けみようかなぁ、と

# http://www.ryo.com/tt-rss/ っていうREFERERがついてて「おい!404じゃねーか!」っておこってる人がもしいたらゴメンなさい

XSLTがんがれ

Yahoo!デベロッパーネットワークというので紹介されてるRSS変換というのを見て、愕然とした。

そこでは、検索APIのXML出力をperlで読んでRSSに変換し、それにXSLTを適用してHTML表示するというわかりやすいんだかわかりにくいんだかよくわからない作業が行われていたのです。

検索APIの出力したXMLをRSSに変換するXSLTを書けよってもんだ。

RSSフィードへの広告配信その2

なんとなくRSSフィードへの広告配信の続きです。

RSS広告がWebサイト広告と違う部分について、前回はシステム面についてでしたが、ビジネス面についても少しフォロー。
ビジネス面での大きな違いはズバリ、Webサイトに対してエクスクルーシブになりやすいという点です。
なりやすい、というよりは実際はほぼエクスクルーシブでしかありえないのではないでしょうか?

Webページに広告を貼り付ける場合、サイトオーナーは複数の広告プログラムから自由に貼り付けることができます。もちろん広告プログラムがエクスクルーシブを要求している場合もありますが、現実的にはサイトオーナーが自由につけることができます。
これに対し、RSSを代理配信する方式では、広告を埋め込むのは完全に広告プログラムの事業者になり、事業者とWebサイトとの契約は自然とエクスクルーシブになります。

出力されたRSSをさらに他の事業者に渡すことにより複数の事業者を通して配信することもできなくはなさそうですが、渡された側も他の事業者が埋め込んだ広告を配信するわけにもいかないでしょうから、実際ほぼエクスクルーシブになると思います。

あとシステム面の話に戻りますが、不正について。
不正検出の面から考えると、AdSenseのようなiframeを使用してWebページに埋め込まれるものより情報が少ないため、難しい部分があります。
Webページに広告を埋め込んだ場合、広告が表示された瞬間からユーザー動向のトラッキングが可能で、たとえばあるユーザーについて
・表示されたものほとんどがクリックされる
・表示されて数秒以内のクリックが続く
なんて場合には不正とみなすことができます。
しかしRSS広告の場合、コンテンツと同時に広告を配信してしまう必要がありますから、iframeのように表示した時点からのトラッキングを行うことができませんし、少なくとも上記のような不正検知はできなくなります。

RSSフィードへの広告配信

FeedBurner(製作中の日本語版)に続き、Pheedoも日本語化が進行中の模様です。

こうしたRSS広告とよばれるシステムは、RSSをわざわざパブリッシャーに代わってフィードする必要があるため、いままでのバナーやiframeで広告を配信するものとはちょっと違った構成になります。

配信については、いままでのものは広告だけを配信していればよかったのですが、RSS広告は記事も一緒に配信する必要があるため、帯域に関しては負担があがりそうですが、各ページごとに配信が必要だったいままでのものに対して、RSSフィード一つの配信で済むため、一長一短といったところでしょうか。
コンテンツマッチに関しては、メイン記事の他にメニューやリンク集・手作業による広告なんかが入り乱れるWebページに対して、RSSというのは記事だけを対象にするのがカンタンですから、コストは安くなりそうです。
トラッキングと不正防止に関してはいままでのシステムの恩恵をたっぷり受けることができそうですが、新たな不正は常にでてきているのでRSS広告に特化した不正もでてくるんじゃないでしょうか?