使えるWebサービス・オープンソース（26）「クローラー」

2014/04/25(金) 07:19

今回のテーマはクローラーです。Webサイトを開発していたりする際に欲しくなるのがクローラーです。外部のコンテンツを取得するのにJavaScriptではクロスドメインの制約があるのでサーバサイドから取得するなんてことはよくあると思います。

しかし意外とHTTPヘッダーの解釈や文字エンコードなどクローラーを書くのも一筋縄ではいきません。そこで今回はクローラーに似たサービスやオープンソース・ソフトウェアを紹介します。

Webサービス

特徴としてスクレイピングではなく、DOM構造を理解した上で似たような構造部分を自動でピックアップしてJSON/CSVにしてくれるという点があります。一覧ページなどで、リスト部だけを効率的に取得したいなんて使い方が考えられます。

純粋にHTMLをJSONに変換するサービスです。データの取得だけ行って後は自分で操作したいという時にはこちらが良さそうです。

データの解析を含めたスクレイピングサービスです。CSV/JSON/Excelファイルなどとしてデータを受け取れます。

クローリングをPaaSとして提供しています。データをS3などに保存してくれるので取得の設定さえしておけば後はどんどん蓄積されるので後で振り返りをするのにも使えます。

※ご購入後のキャンセルはできません。支払い時期と提供時期はこちら

記事一覧に戻る

コメントをするにはログインして下さい。