MOONGIFTニコニコ出張所

使えるWebサービス・オープンソース(26)「クローラー」

2014/04/25 07:19 投稿

  • タグ:
  • 登録タグはありません
  • タグ:
  • 登録タグはありません

今回のテーマはクローラーです。Webサイトを開発していたりする際に欲しくなるのがクローラーです。外部のコンテンツを取得するのにJavaScriptではクロスドメインの制約があるのでサーバサイドから取得するなんてことはよくあると思います。

しかし意外とHTTPヘッダーの解釈や文字エンコードなどクローラーを書くのも一筋縄ではいきません。そこで今回はクローラーに似たサービスやオープンソース・ソフトウェアを紹介します。

Webサービス

kimono : Turn websites into structured APIs from your browser in seconds

特徴としてスクレイピングではなく、DOM構造を理解した上で似たような構造部分を自動でピックアップしてJSON/CSVにしてくれるという点があります。一覧ページなどで、リスト部だけを効率的に取得したいなんて使い方が考えられます。

html2api

純粋にHTMLをJSONに変換するサービスです。データの取得だけ行って後は自分で操作したいという時にはこちらが良さそうです。

import.io | Structured Web Data Scraping | import•io

データの解析を含めたスクレイピングサービスです。CSV/JSON/Excelファイルなどとしてデータを受け取れます。

mitsubachi / mushikago.org

クローリングをPaaSとして提供しています。データをS3などに保存してくれるので取得の設定さえしておけば後はどんどん蓄積されるので後で振り返りをするのにも使えます。

 

ここから先は有料になります

ニコニコポイントで購入する

チャンネルに入会して購読する

  • この記事は過去記事の為、今入会しても読めません。ニコニコポイントでご購入下さい。

コメント

コメントはまだありません
コメントを書き込むにはログインしてください。

いまブロマガで人気の記事

継続入会すると1ヶ月分が無料です。 条件を読む

MOONGIFTチャンネル

MOONGIFTチャンネル

月額
¥550  (税込)
このチャンネルの詳細