個人的にはもっと早く廃れるかと思っていたキュレーション(まとめ)サイトですが、今なおWeb検索でNaverまとめが上位に出るなど、まとめサイトはコンテンツとして価値が高く見られています。

そこで今回はキュレーションサイトを作るためのライブラリや、その手法について紹介します。ちなみに個人的にちょっとしたキュレーションサイトを作るためのシステムを開発していたりします。

本文の取得

肝になるのはWebページの中から本文と思わしき部分を取得する機能ではないかと思います。クローラーの場合、ドメイン全体やディレクトリ以下を通して共通している部分を取り除くことで精度があげられると思いますが、単一のWebページを貼り付けるキュレーションサイトにおいてはページを解析して行うのが多いかと思います。

アルゴリズムから調べることもできますし、それを実装したライブラリも幾つかあります。そちらは後ほど紹介します。