はてなブログ読者数ランキングを作るためにはスクレイピングの他、クローリングの技術も必要だったようだ

今日も丸一日、スクレイピングについて調べながらコードの加筆修正をしていた。

スポンサーリンク

はてなブログ読者数ランキングを作るためにはスクレイピングの他、クローリングの技術も必要だったようだ

Pythonクローリング

調べるにつれ、どうやらはてなブログ読者数ランキングを作成するためにはスクレイピング技術だけではなく、クローリングの技術も必要なことが判明した。スクレイピングのみの力技だけで作れなくもないようだが私には厳しい感じがした。今週はスクレイピングばかりを学んでいたのでスクレイピングについて少しは詳しくなったと思う。例えばWebページにあるすべてのタイトルやリンクのURLをエクセルに書き出したり、ボタンをクリックした先にあるページの文字やリンクを取得できるようになった。できることが増えて喜んでいるがはてなブログ読者数ランキングの完成には至っていない。

 

一日中パソコンを起動させて30秒に1件のブログの情報を取り出していたら、途方もない作業に思えてきてしまった。30秒に1件では一日に小休止を挟んだとして4000件余りしか情報が取得できない。しかも同じブログの同じ情報を延々とスクレイピングするハメになる可能性もある。私のはてなブログ読者数ランキング作成までの道のりににわかに暗雲垂れ込め始めてしまった。

 

得意のUdemyでクローラーやクローリング講座を探したが水泳のクロール講座がヒットするばかりで期待外れだった。それに引きかえ英語の講座は沢山あるようだった。私も英語の勉強をしてはいるが芳しくない。私が帰国子女だったらそんな悩みはなかっただろう。中学時代、英語の勉強を疎かにした罰が今ごろになってボディーブローのように足に効いてきているみたいだ。プログラミングという難敵に英語能力不足が祟ってカウントダウンを取られた気がする。敗者復活戦ばかりではしんどい。私の人生にシード権はない。早くも苦戦を強いられている。