在爬虫开发时,我们时常会遇到各种BUG各种问题,下面是我初步汇总的一些报错和解决方案。
在以后的学习中,如果遇到其他问题,我也会在这里进行更新。
各位如有什么补充,欢迎评论区留言~~~
问题:
IP被封,或者因访问频率太高被拦截???
解决方案之一:
使用代理IP即可。
问题:
正确使用XPath之后并没有输出???
解决方案之一:
XPath只能提取未注释的代码,改用正则表达式即可。
问题:
容易被反爬搞死???
解决方案之一:
headers中都要带上User-Agent,而Cookie能不带则不带。
报错:
UTF-8不能处理字节???
解决方案之一:
在headers中加入Cookie即可输出正常的HTML。
报错:
‘ gbk ’不能处理‘ \\xa0 ’ ???
解决方案之一:
with open('%s.html' % title, 'w', encoding='utf-8') as f: f.write(rep)
问题:
输出结果是字节类型,json对象无法正常显示???
解决方案之一:
使用 json.loads 方法即可。
问题:
url = 'https://tieba.baidu.com/f?kw=%E8%8B%B1%E9%9B%84%E8%81%94%E7%9B%9F&ie=utf-8&pn=0'
网址复制到py文件中,却变成了“乱码”???
解决方案之一:
调用 urllib.parse.unquote 进行URL解码即可。
问题:
URL地址不规范???
解决方案之一:私信小编01 领取更多报错解决方法哦!
分析URL时,我们一般从第二页开始分析,而不是第一页。
问题:
不想Cookie中携带自身账号内容???
解决方案之一:
利用浏览器的无痕窗口功能,进入网页再取Cookie即可。
报错:
解决方案之一:
报错:
解决方案之一:
未完待续哦~~~~
本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.sosokankan.com/article/1902933.html
赞 (2)
打赏 微信扫一扫
寒锐钴业—加码新能源汽车领域,高速成长可期
« 上一篇2019-12-30 12:31:47
华为公司干部选拔标准及程序
下一篇 »2019-12-30 12:31:58