人生100年!生涯エンジニア人生!

楽しいエンジニア人生!

2020-06-01から1ヶ月間の記事一覧

tailコマンドで、昨日(2020年6月24日)のスクリプトが止まったのでリカバリーする

止まるときもある 2020年6月24日の記事で10万行のURLリストと格闘しました。 kawahara-ci.hatenablog.com ただ、インターネットは生もので運良く全て上手く行くわけはなく運が悪ければ通り止まります。 実際に止まりましてtail -f 出力ファイル でも更新され…

意外と便利なcurlのwriteoutオプション(http_codeとurl_effectiveは便利過ぎる)

唐突にきた調査依頼 依頼主「ここにあるURLリストで正常にアクセスできると、URLが変わった物をリストアップしてほしい。」 私「はい、すぐに!お?10万件?スクリプトをサクッとやりますが、量が多いので実行に1日ぐらいかかります。」 できた物 #!/bin/bas…

長いURLに対して Scrapy するときの覚書

結論 Scrapy で長いURLを対象にするときは、設定ファイルのsettings.pyにURLLENGTH_LIMITを書いてURLの最大長を記載する。 自分がやったときはURLの長さが3,800文字だったので、4,000文字に設定した。 # URL LENGTH URLLENGTH_LIMIT = 4000 ログレベルについ…