您好,欢迎来到画鸵萌宠网。
搜索
您的当前位置:首页Requests库网络爬虫实战

Requests库网络爬虫实战

来源:画鸵萌宠网
Requests库⽹络爬⾍实战

实例⼀:页⾯的爬取

>>> import requests

>>> r= requests.get(\"https://item.jd.com/100003717483.html\")>>> r.status_code200

>>> r.encoding#说明从HTTP的头部分,已经可以解析出这个页⾯的编码信息,京东⽹站提供了页⾯信息的相关编码'gbk'

>>> r.text[:1000]

'\\n\\n\\n \\n \\n 【华为nova 5 Pro】华为 HUAWEI nova 5 Pro 前置3200万⼈像超级夜景4800万AI四摄麒麟980芯⽚8GB+128GB绮境森林全⽹通双4G⼿机【⾏情 报价 价格 评测】-京 东\\n \\n \\n \\n \\n \\n \\n \\n 通过headers字段让代码模拟浏览器向亚马逊服务器提供HTTP请求

>>> r=requests.get(\"https://www.amazon.cn/gp/product/B01M8L5Z3Y\")>>> r.status_code200

>>> r.request.headers#requests库的response对象包含request请求,可以通过r.request.headers查看发给亚马逊的request信息的头部到底是什么内容

{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

'User-Agent': 'python-requests/2.18.4'说明我们的爬⾍真实的告诉了亚马逊服务器这次访问是由python的request库的⼀个程序产⽣的,如果亚马逊提供了这样的来源审查,就会使这样的访问变得错误或者不⽀持这样的访问更改头部信息,模拟浏览器向亚马逊发送请求

kv={'user-agent':'Mozilla/5.0'}#重新定义了user-agent的内容,使他等于Mozilla/5.0;Mozilla/5.0说明这时候的user-agent可能是个浏览器,可能是⽕狐,可能是Mozilla,可能是IE10的浏览器,Mozilla/5.0是⼀个很标准的浏览器的⾝份标识的字段>>> url='https://www.amazon.cn/gp/product/B01M8L5Z3Y'>>> r=requests.get(url,headers=kv)>>> r.status_code

200

>>> r.request.headers

{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}>>> r.text[:1000]

'\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n \\n\\n\\n\\n\\n\\n\\n\\n \\n\\n \\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n \\n\\n\\n\\n\\n\\n \\n\\n\\n\\r\\n\\r\\n'

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo8.com 版权所有 湘ICP备2023022238号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务