岩本隆史の日記帳(アーカイブ)

はてなダイアリーのサービス終了をうけて移行したものです。更新はしません。

新刊情報の収集テクニック

Yahoo! Pipeslivedoor ReaderGreasemonkeyを使った、新刊情報の収集テクニックを晒してみます。

日々の新刊データを収集したい

拙作のリリースチェッカーでは、指定のキーワードに合致する新刊情報がRSSフィードで収集できます。が、キーワードに合致しなくとも読むべき本が日々出版されているかもしれません。そこで、日々の全新刊データを収集したくなりました。

新刊全点RSSフィードと、その(個人的な)問題点

新刊データを収集するには、id:worris2さんの新刊全点RSSフィードが便利です。「データ部ログ 日刊新刊全点案内 新刊一覧」をフィード化したものです。

これをlivedoor Reader等のフィードリーダーで読めばよいわけですが、下記の問題点が気になったため、それは避けました。

これらの問題点は、フィードを加工すれば解決できるので、Yahoo! Pipesを使うことにしました。

Yahoo! Pipesによる加工

件数の問題については、逆順のフィードを作ることで簡易的に対応できます。1点目〜200点目までの正順フィードと、400点目〜201点目までの逆順フィードがあればよいわけです。新刊データが1日400点以下でないと漏れが出てしまいますが、1日に400点以上の新刊データが登録されることはまずありません。また、新刊データが400点未満であれば重複が発生しますが、この点については後述します。

幼児向けや研究者向けの不要データについては、「一般」カテゴリのデータだけを残すことで対応できます。

結果、下記のフィードができました。

Greasemonkeyでもっと便利に

上記2つのフィードで取得できる新刊データは、重複分を除くと、1日200点を少し超えるぐらいのことが多い印象です。正順→逆順とフィードを読んだ場合、後者のうち190点ぐらいは、前者と重複することになります。

新刊フィードに限らず、livedoor Readerで重複アイテムを読み飛ばすには、id:brazilさん作のGreasemonkeyLDR - Dedupe Entries」が便利です。重複分の色が薄くできます。ちなみに、拙作の「LDR - Clear Deduped Style」は、それを普通の色に戻せるGreasemonkeyです(参考)。

さらに、私はbk1ではなくAmazonを常用しているため、下記のGreasemonkeyを作りました。

新刊フィードに含まれる各アイテムのリンク先は、bk1の書籍ページになっています。そのページのISBNの右横に、Amazonの当該書籍ページへのリンクを追加するGreasemonkeyです。

天津木村著『天津木村のエロ詩吟、吟じます。』の例

Amazonへのリンクが、あると思います。