Requests库网络爬虫实战

来源：画鸵萌宠网

Requests库⽹络爬⾍实战

实例⼀：页⾯的爬取

>>> import requests

>>> r= requests.get(\"https://item.jd.com/100003717483.html\")>>> r.status_code200

>>> r.encoding#说明从HTTP的头部分，已经可以解析出这个页⾯的编码信息，京东⽹站提供了页⾯信息的相关编码'gbk'

>>> r.text[:1000]

'\\n\\n\\n \\n \\n 【华为nova 5 Pro】华为 HUAWEI nova 5 Pro 前置3200万⼈像超级夜景4800万AI四摄麒麟980芯⽚8GB+128GB绮境森林全⽹通双4G⼿机【⾏情报价价格评测】-京东\\n \\n \\n \\n \\n \\n \\n \\n 通过headers字段让代码模拟浏览器向亚马逊服务器提供HTTP请求

>>> r=requests.get(\"https://www.amazon.cn/gp/product/B01M8L5Z3Y\")>>> r.status_code200

>>> r.request.headers#requests库的response对象包含request请求，可以通过r.request.headers查看发给亚马逊的request信息的头部到底是什么内容

{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

'User-Agent': 'python-requests/2.18.4'说明我们的爬⾍真实的告诉了亚马逊服务器这次访问是由python的request库的⼀个程序产⽣的，如果亚马逊提供了这样的来源审查，就会使这样的访问变得错误或者不⽀持这样的访问更改头部信息，模拟浏览器向亚马逊发送请求

kv={'user-agent':'Mozilla/5.0'}#重新定义了user-agent的内容，使他等于Mozilla/5.0；Mozilla/5.0说明这时候的user-agent可能是个浏览器，可能是⽕狐，可能是Mozilla，可能是IE10的浏览器，Mozilla/5.0是⼀个很标准的浏览器的⾝份标识的字段>>> url='https://www.amazon.cn/gp/product/B01M8L5Z3Y'>>> r=requests.get(url,headers=kv)>>> r.status_code

200

>>> r.request.headers

{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}>>> r.text[:1000]

'\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n \\n\\n\\n\\n\\n\\n\\n\\n \\n\\n \\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n\\n\\n\\n\\n\\n \\n\\n\\n\\r\\n\\r\\n'

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文