これからはじめる!Webクローリング技術
ひょんなことからWebクローラーを作ることにになったのでいろいろまとめていきたいと思います。
Webクローラーとは
Googleなどの検索エンジン(キーワードからリンクリストを作るサービス)や、マーケティングの情報収集などに使われる「Web上の情報を収集するプログラム」のことです。
スパイダーとも言われますが厳密には違うとのこと。
Webクローリングを構成するプログラム
リンクを辿ってページをキャッシュする
キャッシュを解析して情報を抽出する
抽出した情報を整理する
整理した情報をHTMLなどで出力する
Webクローラーを作るためには
Webのキャッシュを収集する方法とキャッシュを解析する方法の2つを実現する必要があります。
アウトプット方法は個々の目的によって違うのでまずはこの2要素に絞って勉強していきたいと思います。
気になる本
参考サイト