はてなブログ読者数ランキングが少しずつ出来上がってきた

先週からずっとPythonのクローラー&スクレイピングを作成している。

スポンサーリンク

はてなブログ読者数ランキングが少しずつ出来上がってきた

Scrapy

Python製のクローラーフレームワークScrapy(スクレイピー)を使ってクローラー作成をしている。今日はもうだめかと思うほど、プログラムが意図したように動作せず絶望したが、何とか奇跡的に動き出したので今、歓喜の祝杯をあげているところだ。あとは取得したデータをデータベースに保存すればいいという段階だ。

 

作ったクローラーを一時間動かしてみて、はてなブログの読者数が300人以上のブログを100件近く抜き出せた。一時間動かして100件(読者300人以上のブログ)なら単純計算して、10時間で1000件になる。もっと早くデータを取得したいと思う。目下、どうしたらいいか考え中といったところだ。

 

Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド

クローリング&スクレイピングを使ってサイトからデータを収集したいならこの本をおすすめする。初心者殺しの本ではあるが、書かれてあることは確かな技術。頑張るしかない。