【Python必学】Python爬虫反爬策略你肯定不会吧？（python 反爬技术）-eolink官网

【Python必学】Python爬虫反爬策略你肯定不会吧？（python 反爬技术）

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

正文

Python爬虫反爬策略三部曲，拥有这三步曲就可以在爬虫界立足了:

浏览器伪装

IP代理池和用户代理池构建

动态页面加载解决方法

注意：如果你Python基础不够扎实，建议先学好再来，缺Python最新教程的可以点击下方链接自行获取

http://note.youdao.com/noteshare?id=a3a533247e4c084a72c9ae88c271e3d1

网站反爬机制常用的方法：

1、通过识别访问的headers来判断是爬虫还是浏览器访问，其中最常用和最重要的就是User-Agent用户代理，服务器可以从这个字段识别出客户端浏览器类型和版本号、客户端的操作系统，页面排版等信息，正是因为这个原因手机和电脑打开的同个网站的页面的排版是不同的，常用的还有Referer等字段；

2、通过用户行为，要是通过一个IP短时间内大量访问数据，该网站可能对这个IP进行短时间的禁止访问，这个可以增加访问延时时间，比如每访问一次延时time.sleep(5),延时5秒，要是爬取的数据量大的话这个爬取时间是挺蛋疼的，最好的方法就是同时构建用户代理池和IP代理池，每访问几次就换一个用户代理和IP代理就完美解决了；

3、动态页面加载，可以通过抓包分析出页面加载的规律然后构造批量请求，如果文件是加密的，可以使用selenium+phantomJS浏览器内核来访问，这个是真实的用户行为，速度比较慢，可以浏览器操作的部分交给selenium+phantomJS，爬取的功能交给爬虫实现，虽然比纯爬虫慢，但是也没办法了。

先来第一部曲

浏览器伪装

通过Request添加headers

通过Opener添加headers

批量添加headers

通过Request添加headers

import urllib.request

url="https://qiushibaike.com"

headers={"User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\

WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36"}

req=urllib.request.Request(url,headers=headers)

#对request进行封装

data=urllib.request.urlopen(req).read().decode("utf-8","ignore")

通过Opener添加headers

基本的urlopen()函数不支持验证、cookie或其他HTTP高级功能，要支持这些功能必须使用build_opener()函数来创建自己的自定义Opener对象

install_opener(opener)安装opener作为urlopen()使用的全局URL opener,即意味着以后调用urlopen()时都会使用安装的opener对象。

import urllib.request

url="https://qiushibaike.com/"

headers=("User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\

WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36")

opener=urllib.request.build_opener()

opener.addheaders=[headers]

data=opener.open(url).read()

#使用自定义的伪装浏览器进行访问

urllib.request.install_opener(opener)

data=urllib.request.urlopen(url).read().decode("utf-8","ignore")

#也可以安装为全局，意味着以后调用urlopen()函数都会使用安装的opener对象

通过批量添加headers

import urllib.request

url="https://qiushibaike.com"

headers={

"User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\

WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36",

"Referer":"https://qiushibaike.com"

}

#这里只是做一个演示，可以添加更多的字段，有些字段是不用的，有些字段是要的，这个可以进行抓包分析请求需求

opener=urllib.request.build_opener()

headerall=[]

for key,value in headers.item():

item=(key,value)

headerall.apend(item)

#[("",""),("","")] 遍历存储以后的形式

opener.addheaders=headersall

urllib.request.install_opener(opener)

data=urllib.request.urlopen(url).read().decode("utf-8","ignore")

浏览器伪装可以解决大部分网站的反爬机制，大型网站反爬机制就比较复杂点了，后面更新构建IP代理和用户代理，动态页面加载的解决方法

Python接口自动化之文件上传/下载接口怎么实现

275 2022-06-19

【Python必学】Python爬虫反爬策略你肯定不会吧？（python 反爬技术）

java中的接口是类吗

Spring中的aware接口详情

Python接口自动化之文件上传/下载接口怎么实现

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

软件接口设计怎么做？前后端分离软件接口设计思路

接口管理平台推荐，几大接口管理平台总有一款适合你！