これからはじめる!Webクローリング技術

ひょんなことからWebクローラーを作ることにになったのでいろいろまとめていきたいと思います。

Webクローラーとは
Googleなどの検索エンジン(キーワードからリンクリストを作るサービス)や、マーケティングの情報収集などに使われる「Web上の情報を収集するプログラム」のことです。
スパイダーとも言われますが厳密には違うとのこと。

Webクローリングを構成するプログラム
リンクを辿ってページをキャッシュする
キャッシュを解析して情報を抽出する
抽出した情報を整理する
整理した情報をHTMLなどで出力する

Webクローラーを作るためには
Webのキャッシュを収集する方法とキャッシュを解析する方法の2つを実現する必要があります。
アウトプット方法は個々の目的によって違うのでまずはこの2要素に絞って勉強していきたいと思います。

気になる本

参考サイト