人生100年!生涯エンジニア人生!

楽しいエンジニア人生!

Scrapy

長いURLに対して Scrapy するときの覚書

結論 Scrapy で長いURLを対象にするときは、設定ファイルのsettings.pyにURLLENGTH_LIMITを書いてURLの最大長を記載する。 自分がやったときはURLの長さが3,800文字だったので、4,000文字に設定した。 # URL LENGTH URLLENGTH_LIMIT = 4000 ログレベルについ…

アンカータグに入ったJavaScriptスキームのサイトにScrapyで挑む

Scrapyしにくいサイト ここです。 jinzai.hellowork.mhlw.go.jp ちょっとアクセスすると判るのですが、hrefにJavaScript:に入れまくっている(JavaScriptスキーム)平成初期の臭いが漂うサイトですね。 今回は、Scrapyを使ってスクレイピングしてみます。 Sc…