人生100年!生涯エンジニア人生!

楽しいエンジニア人生!

Scrapy

2021年の技術同人活動を振り返る #技書博 #技術書典

技書博と技術書典の振り返り、2021年の技術同人活動を振り返る

『PythonとScrapyを使ったWebスクレイピング』を2021年10月1日に刊行!!

説明 2020年の年末にPythonのスクレイピングの技術同人誌を頒布しました。 kawahara-ci.hatenablog.com 技術同人誌の内容を大幅にパワーアップして、技術同人誌では6章までだったのを9章まで増やし、技術同人誌では50ページだったのを100ページに増やして、…

長いURLに対して Scrapy するときの覚書

結論 Scrapy で長いURLを対象にするときは、設定ファイルのsettings.pyにURLLENGTH_LIMITを書いてURLの最大長を記載する。 自分がやったときはURLの長さが3,800文字だったので、4,000文字に設定した。 # URL LENGTH URLLENGTH_LIMIT = 4000 ログレベルについ…

アンカータグに入ったJavaScriptスキームのサイトにScrapyで挑む

Scrapyしにくいサイト ここです。 jinzai.hellowork.mhlw.go.jp ちょっとアクセスすると判るのですが、hrefにJavaScript:に入れまくっている(JavaScriptスキーム)平成初期の臭いが漂うサイトですね。 今回は、Scrapyを使ってスクレイピングしてみます。 Sc…