2020-06-01から1ヶ月間の記事一覧
止まるときもある 2020年6月24日の記事で10万行のURLリストと格闘しました。 kawahara-ci.hatenablog.com ただ、インターネットは生もので運良く全て上手く行くわけはなく運が悪ければ通り止まります。 実際に止まりましてtail -f 出力ファイル でも更新され…
唐突にきた調査依頼 依頼主「ここにあるURLリストで正常にアクセスできると、URLが変わった物をリストアップしてほしい。」 私「はい、すぐに!お?10万件?スクリプトをサクッとやりますが、量が多いので実行に1日ぐらいかかります。」 できた物 #!/bin/bas…
結論 Scrapy で長いURLを対象にするときは、設定ファイルのsettings.pyにURLLENGTH_LIMITを書いてURLの最大長を記載する。 自分がやったときはURLの長さが3,800文字だったので、4,000文字に設定した。 # URL LENGTH URLLENGTH_LIMIT = 4000 ログレベルについ…