今回のテーマはクローラーです。Webサイトを開発していたりする際に欲しくなるのがクローラーです。外部のコンテンツを取得するのにJavaScriptではクロスドメインの制約があるのでサーバサイドから取得するなんてことはよくあると思います。

しかし意外とHTTPヘッダーの解釈や文字エンコードなどクローラーを書くのも一筋縄ではいきません。そこで今回はクローラーに似たサービスやオープンソース・ソフトウェアを紹介します。

Webサービス

kimono : Turn websites into structured APIs from your browser in seconds

特徴としてスクレイピングではなく、DOM構造を理解した上で似たような構造部分を自動でピックアップしてJSON/CSVにしてくれるという点があります。一覧ページなどで、リスト部だけを効率的に取得したいなんて使い方が考えられます。

html2api

純粋にHTMLをJSONに変換するサービスです。データの取得だけ行って後は自分で操作したいという時にはこちらが良さそうです。

import.io | Structured Web Data Scraping | import•io

データの解析を含めたスクレイピングサービスです。CSV/JSON/Excelファイルなどとしてデータを受け取れます。

mitsubachi / mushikago.org

クローリングをPaaSとして提供しています。データをS3などに保存してくれるので取得の設定さえしておけば後はどんどん蓄積されるので後で振り返りをするのにも使えます。