进击的反爬机制(下面关于反爬机制描述错误的是)

网友投稿 408 2022-10-06


进击的反爬机制(下面关于反爬机制描述错误的是)

爬 虫 & 反爬虫

爬 虫:指通过一定的规则策略,自动抓取、下载互联网上的网页内容,再按照某些规则算法抽取数据,形成所需要的数据集。有了数据,就有可能进行一些非法活动。
反爬虫:一般指网站管理员使用一定的技术手段,防止爬虫程序对网站的网页内容进行爬取,以及阻止通过爬虫获取数据后的非法活动。

反爬方与爬虫方相互博弈,不断制造爬取难度,或一定程度上阻止了爬虫行为。爬虫方也在不断更新技术,来对抗种种反爬限制。

对抗过程

初始状态下,网站提供网站服务,未部署任何反爬措施。

ROUND 1

爬虫方启动爬虫程序 (实验环境中使用 scrapy 爬取) 成功爬取网页内容。

反爬方发现有爬虫程序在对网站进行爬取,在分析日志中访问请求的 user-agent 后,加载 iWall3 Web应用防火墙模块,编写并加载防护规则 anti-crawlers-match-user-agents.json 如下:

{ "info": { "title": "UA Crawlers list" }, "rules": [ { "meta": { "phase": 2, "desc": "https://github.com/coreruleset/coreruleset/blob/v3.3/dev/rules/crawlers-user-agents.data" }, "if": { "variable": [ "REQUEST_HEADERS", "REQUEST_BODY", "REQUEST_FILENAME" ], "transform": "lowercase", "operator": "contain", "pattern": [ "80legs", "black widow", "blackwindow", "prowebwalker", "pymills-spider", "ahrefsBot", "piplbot", "grapeshotcrawler/2.0", "grapefx", "searchmetricsbot", "semrushbot", "rogerbot", "mj12bot", "owlin bot", "lingewoud-550-spyder", "wappalyzer", "scrapy" ] }, "then": [ "IP.bad_ua_count@20=IP.bad_ua_count+1", "if": "IP.bad_ua_count > 3", "then": { "action": "deny", "log": "Too frequnt access from crawlers." } ] } ] }

爬虫方再次爬取网页,发现超过一定阈值后,后续爬虫请求被阻止:

反爬方防护成功。

ROUND 2

爬虫方在初次交锋中 user-agent 被识别,这一次则使用随机的 user-agent (scrapy 使用 random_user_agent 配置),成功爬取网页内容。如下图:

反爬方利用 user_agent 防护的措施失效后,可根据“爬虫 (同一个 IP 地址) 在短时间内会访问多个不同应用 (如 url)”的逻辑,编写并加载防护规则 anti-crawlers-limit-user-access-different-application.json 如下:

{ "rules": [ { "meta": { "phase": 2, "function": "当IP.urls字段中不包含当前访问的请求名,则进行设置操作加判断操作。如果是参数代表不同应用修改即可。", "function": "设置操作包括给原有的IP.urls字段append新的请求名,并给IP.urls_count加1;", "function": "判断操作是判断IP.urls_count是否大于5(代表10秒内访问了不同的url,不同的url代表不同的功能),", "function": "若是则deny,否则放行。" }, "if": [ { "or": [ "REQUEST_FILENAME == '/shopxo-1.6.0/index.php' && @ARGS.s == '/index/user/reginfo.html'", "REQUEST_FILENAME == '/shopxo-1.6.0/index.php' && @ARGS.s == '/index/user/logininfo.html'", "REQUEST_FILENAME == '/shopxo-1.6.0/index.php' && @ARGS.s == '/index/category/index.html'", "REQUEST_FILENAME == '/shopxo-1.6.0/index.php' && contain(@ARGS.s, '/index/search/index/category_id')", "REQUEST_FILENAME == '/shopxo-1.6.0/index.php' && contain(@ARGS.s, '/index/article/index/id')", "REQUEST_FILENAME == '/shopxo-1.6.0/index.php' && contain(@ARGS.s, '/index/goods/index/id')" ] }, { "not": { "variable": "IP.args_s", "operator": "contain", "pattern": "';' .. ${@ARGS.s} .. ';'" } } ], "then": [ "IP.args_s@10=IP.args_s .. ';' .. @ARGS.s .. ';'", "IP.args_s_count@10 = IP.args_s_count+1", "if": "IP.args_s_count > 5", "then": { "action": "deny", "log": true } ] } ] }

超过一定阈值后,后续爬虫请求被阻止:

反爬方防护成功。

ROUND 3

爬虫方由于在上一回合中使用同一 IP 地址且访问速度过快,导致反爬方可以依此特性设置防护。故改为使用 IP 代理池 (scrapy 使用 IP 代理池),成功爬取网页内容。Proxy_ip 的设置如下所示:

反爬方更新防护措施,相应地在页面中增加“蜜罐页面链接”。一旦爬虫程序访问“蜜罐页面链接”就会被拦截。编写并加载防护规则 anti-crawlers-add-honeypot-page.json 如下:

{ "rules": [ { "meta": { "phase": 3, "function": "当访问/shopxo-1.6.0/idnex.php时,在标签下面增加一个标签(含有假的链接)" }, "if": [ "REQUEST_METHOD == 'GET'", "REQUEST_FILENAME == '/shopxo-1.6.0/'", "#ARGS == 0" ], "then": { "execution": [ { "directive": "alterResponseBody", "op": "string", "target": "

", "substitute": "
", "ignore_case": false } ] } }, { "meta": { "phase": 1, "function": "当爬虫进行页面爬取时,就会访问到假的链接时,进行阻止" }, "if": [ "REQUEST_FILENAME == '/shopxo-1.6.0/index.php'", "@ARGS.s == '/index/user/fake_logininfo.html'" ], "then": { "action": "deny" } } ] }

网站加载此规则后,爬虫程序有些请求会被拦截,效果如图:

反爬方防护成功。

ROUND 4

爬虫方在前面的攻防对抗中,爬虫程序进行全局爬取会访问到“蜜罐页面链接”。为避开蜜罐,爬虫方使用 Selenium + WebDriver 对网站进行访问,成功爬取网页内容。

反爬方为应对新的爬虫手段,尝试在前端做“插桩”操作,并判断返回的 WebDriver 属性,编写并加载防护规则 anti-crawlers-check-is-selenium-chromedriver.json 如下:

{ "rules": [ { "function": "1.当访问GET /shopxo-1.6.0/index.php?s=/index/user/reginfo.html 时,修改为", "function": "", "meta": { "phase": 3 }, "if": [ "REQUEST_FILENAME == '/shopxo-1.6.0/index.php'", "@ARGS.s == '/index/user/reginfo.html'" ], "then": { "execution": [ { "directive": "alterResponseBody", "op": "string", "target": "var __user_id__ = 0;", "substitute": "var __user_id__ = 0; var ret = window.navigator.webdriver;var url_ret=\"var = new XMLHttpRequest(); url_ret); ", "ignore_case": false } ] } }, { "meta": { "phase": 1, "function": "当访问send_result.js时,获取到ARGS.ret,查看是否是true,若是则deny" }, "if": [ "REQUEST_FILENAME == '/shopxo-1.6.0/index.php/send_result.js'", "@ARGS.ret != 'false'" ], "then": { "verdict": { "action": "deny", "log": "client is chromedriver!", "continued": { "subject": "REAL_IP", "action": "deny", "duration": 36000, "log": "${REAL_IP.__id} in blocking" } } } } ] }

网站加载本规则后,爬虫请求被拦截,且被持续拦截。

反爬方防护成功。

ROUND 5

爬虫方在上一轮对抗中,因使用 Selenium + WebDriver 会将 WebDriver 属性设为真,对方可据此属性值对爬虫进行拦截。采用如下设置即可修改 WebDriver 的值:

Object.defineProperties(window.navigator,{webdriver:{get:()=>false}})

爬虫方每次使用 Selenium + WebDriver 进行爬取前,预先执行一下这段 js 代码,即可成功爬取网页内容。

反爬方对应的防护规则因 WebDriver 值被人为更改而失效,继而尝试增加字体反爬规则。

规则背景是,在爬虫与反爬示例中,字体文件会产生一个 *.woff 的请求:

以测试页面 niushop 项目首页为例,对价格进行字体反爬处理:

规则如下:

网站加载此规则后,爬虫方获取的价格显示为乱码。

反爬方防护成功 (价格信息)。

ROUND 6

爬虫方受制于字体反爬规则,爬取价格信息时得到的是乱码。于是,在网站字体文件不变的情况下,直接解析固定的 woff 文件——

使用 Python 下 fontTool 库的 ttLib 包,破解反爬的代码文件与效果如下:

爬虫方成功获取网页信息 (准确的价格信息)。

反爬方升级字体反爬规则,以应对爬虫方借字体文件对乱码所做的还原,升级思路是“字体信息不换,动态更换字符编码”——

1. 使用 fontCreator 软件对字体文件进行编码和位置的修改,并产生多个“编码各不相同”、“字体顺序各不相同”和“位置各不相同”的 woff 文件:

2. 在规则中随机调用这些字体文件。这里生成了 5 个随机 woff 文件 (实际字体坐标点信息不变),在生产环境甚至可以制作 1000 个或更多。规则如下:

3. 效果是,多次请求获取到不同的 woff,且价格数值显示正常:

这一措施是利用随机 woff 文件增加爬虫难度。对爬虫方来说,由于 woff 文件中的对应关系变为随机,原先的爬虫程序失效。

反爬方防护成功 (价格信息)。

ROUND 7

爬虫方因防守方升级字体反爬规则,而原有脚本需要对每一个 woff 进行信息映射。如果运行原有脚本,会出现错误的价格数值,测试结果如下:

攻击方需加码升级爬虫脚本,根据“同一个字符其字体关键点的坐标是不变的”的逻辑爬取网页。爬取的代码文件如下:

此时,爬虫方可以成功获取网页信息 (准确的价格信息)。

反爬方由于升级后的字体反爬规则被破解,需要继续升级规则。思路:在已有的动态编码的基础上,追加一个动态字体坐标 (以不影响页面字体显示为前提,微调字体的坐标点,类似于验证码中字体的扭曲变形)。通过微调字体形状 (反映在坐标点上),网站可以做出 1000+ 种字体文件,本文测试中设置出 20 种 (0-19) 字体文件用于随机。

部署后访问页面,价格信息可以正常显示。而爬虫方由于字体本身信息被微调,脚本再次失效。

反爬方防护成功 (价格信息)。

ROUND 8

爬虫方针对字体爬虫脚本的失效,可以发展出两种破解方案:一个是 OCR 技术 (Optical Character Recognition,光学字符识别),另一个是 KNN 算法 (K 近邻分类 K-Nearest Neighbor Classification)。

此处使用 KNN 算法尝试破解。

1. 测试文件地址:

2. 首先,font.py 脚本从网站中下载 5 个随机 woff 文件,存储到 fonts 目录中,并修改 font.py 脚本中所代表的字体值 (根据下载的 woff 文件在 fontCreator 中的顺序修改),如下:

3. 而后,执行 python3 knn_test.py,看到预测率为 100%,如图:

4. 接下来,预测并替换原响应内容,得到正确内容:

可以看到,爬虫方成功获取了信息。

反爬方字体反爬规则对 KNN 算法失效。此时,在字体上的反爬措施也已经走到尽头。防守需转换阵地,对相关网页内容进行 js 混淆,使用 JavaScript-Obfuscator 开源项目进行加密测试。

在本文的测试环境下,通过 cli 命令对 handle_init_js.js 文件进行混淆:

javascript-obfuscator/bin/javascript-obfuscator handle_init_js.js -o a_out.js --compact false

由于网页信息做了 js 混淆处理,爬虫方需要先解密混淆的 js 代码。如果爬虫方无法解密混淆后的 js 代码,则网站反爬防护成功。

ROUND 9

爬虫方一旦其一步步吃透了混淆后的 js 代码,同样可以成功爬取网页信息。

反爬方需继续改变应对策略,增设图片反爬规则。

这里有两种方式:

方式一:将敏感文字信息以图片形式显示,并设置图片加扰等措施。效果和规则如下:

方式二:svg 图片与 css 样式偏移显示结合,进行反爬。效果和规则如下:

由于价格以图片显示,能爬取的只有图片链接和 html 标签信息,并不能直接获取价格信息。在爬虫方难以进一步做图片识别的情况下,可视为对网站进行了成功的反爬防护。

ROUND 10

爬虫方:上回合里,价格以图片方式呈现,爬虫方无法直接获取价格信息,故需要使用 OCR 技术来获取图片中的内容。

以 Tessarect(c++) 开源项目为例 (地址),安装命令为:

./autogen.sh && ./configure && make && make install && ldconfig git clone https://github.com/tesseract-ocr/tessdata.git export TESSDATA_PREFIX=/usr/local/pachong/ocr/tesseract/tessdata/

测试如图所示:

可以看到,图片内容被准确识别出来,爬虫成功获取到了价格信息。

反爬方:网页终究是提供信息供用户阅览的,当爬虫方使用 OCR 技术进行图片识别的时候,网站暂时是没有更好的办法进行反爬防护的。当然,还可以继续跟爬虫方在图片显示技术上进行对抗,譬如使用图片水印对原信息进行处理。网页终究是要呈现信息给用户的,当走到爬虫方使用 OCR 技术进行图片识别这一步时,网站暂时是没有更好的办法进一步反爬的。当然,还可以继续跟爬虫方在图片显示技术上进行对抗,譬如使用图片水印对原信息进行处理。

总结正所谓,“道高一尺魔高一丈”,爬虫和反爬的对抗始终斗智斗勇,步步紧逼,相互间的博弈没有终点。

(张戈 | 天存信息)


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:网络信息安全的八大机制(网络信息安全的八大机制是什么)
下一篇:Meterpreter入门与精通(九)(十)(Meterpreter的主要功能包括)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~