Scrapy
技書博と技術書典の振り返り、2021年の技術同人活動を振り返る
説明 2020年の年末にPythonのスクレイピングの技術同人誌を頒布しました。 kawahara-ci.hatenablog.com 技術同人誌の内容を大幅にパワーアップして、技術同人誌では6章までだったのを9章まで増やし、技術同人誌では50ページだったのを100ページに増やして、…
結論 Scrapy で長いURLを対象にするときは、設定ファイルのsettings.pyにURLLENGTH_LIMITを書いてURLの最大長を記載する。 自分がやったときはURLの長さが3,800文字だったので、4,000文字に設定した。 # URL LENGTH URLLENGTH_LIMIT = 4000 ログレベルについ…
Scrapyしにくいサイト ここです。 jinzai.hellowork.mhlw.go.jp ちょっとアクセスすると判るのですが、hrefにJavaScript:に入れまくっている(JavaScriptスキーム)平成初期の臭いが漂うサイトですね。 今回は、Scrapyを使ってスクレイピングしてみます。 Sc…