实例⼀:页⾯的爬取
>>> import requests
>>> r= requests.get(\"https://item.jd.com/100003717483.html\")>>> r.status_code200
>>> r.encoding#说明从HTTP的头部分,已经可以解析出这个页⾯的编码信息,京东⽹站提供了页⾯信息的相关编码'gbk'
>>> r.text[:1000]
'\\n\\n
\\n \\n \\n>>> r=requests.get(\"https://www.amazon.cn/gp/product/B01M8L5Z3Y\")>>> r.status_code200
>>> r.request.headers#requests库的response对象包含request请求,可以通过r.request.headers查看发给亚马逊的request信息的头部到底是什么内容
{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
'User-Agent': 'python-requests/2.18.4'说明我们的爬⾍真实的告诉了亚马逊服务器这次访问是由python的request库的⼀个程序产⽣的,如果亚马逊提供了这样的来源审查,就会使这样的访问变得错误或者不⽀持这样的访问更改头部信息,模拟浏览器向亚马逊发送请求
kv={'user-agent':'Mozilla/5.0'}#重新定义了user-agent的内容,使他等于Mozilla/5.0;Mozilla/5.0说明这时候的user-agent可能是个浏览器,可能是⽕狐,可能是Mozilla,可能是IE10的浏览器,Mozilla/5.0是⼀个很标准的浏览器的⾝份标识的字段>>> url='https://www.amazon.cn/gp/product/B01M8L5Z3Y'>>> r=requests.get(url,headers=kv)>>> r.status_code
200
>>> r.request.headers
{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}>>> r.text[:1000]
'\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n \\n\\n\\n\\n\\n\\n\\n\\n \\n\\n \\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n\\n\\n\\n\\n\\n \\n
\\n\\n\\r\\n\\r\\n'
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo8.com 版权所有 湘ICP备2023022238号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务