Webスクレイピングは手強かった

htmlSQLを使ったWebスクレイピングのサンプルが雨天中止の試合がある場合に期待通りに動作しないことが判明。

原因は、雨天中止の場合のスコア一覧の内容が想定と違ったこと。雨天中止の場合、先発投手は表示しないけどスコア詳細ページへのリンクは表示するようだ。

それでも動くようにPHPを修正。全ての試合詳細ページを1つずつ見ていき、該当チームのページがあるか確認するようにする。

合わせて、全チームの試合状態(試合前、試合終了、雨天中止など)も取得する。そうしないとデイゲームの日なんかに中止なのか試合前なのか分からない。

これでうまく動くかな?

htmlSQLを使ったWebスクレイピングのサンプルを公開

htmlSQLでプロ野球速報をWebスクレイピングして携帯のフルブラウザで見られるようにする実験 [ゼロと無限の間に:Sandbox]

今回は自分で作ったライブラリではなくて、有名ライブラリの使用例のソースコードを公開。

htmlSQLはなかなか便利。div要素がうまく取得できないのは難点だけど、そこはバッドノウハウで切り抜ける。

次は何をスクレイピングしようかな 🙂