java中的接口是类吗
284
2022-08-31
听说学Python字体反爬的人,都打开过这篇博客,自如字体反爬,图片字体反爬
@[toc]
⛳️ 自如 实战场景
后续可以参考该值做区分。
下面还需要确定一下每次刷新,图片是否发生变化。
刷新了一下,发生了变化  ̄ □  ̄||
但是原理是一样的,就是获取图片之后,然后解析对应的图片,通过 OCR 技术,识别文字。
⛳️ 自如 实战编码
获取源码,解析图片地址。
import requests from lxml import etree headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36" } res = requests.get('https://ziroom.com/z/',headers=headers) tree = etree.HTML(res.text) img_style = tree.xpath("//span[@class='num']/@style")[0] # 不用正则,直接截取字符串 print(len('background-image: url(//')) print(len(');background-position: -42.8px')) # 不用正则,直接截取字符串 img_src = img_style[24:len(img_style)-30]
然后通过 OCR 软件识别相关信息,然后进行提取。
# 下载图片文件,通过 OCR 识别出数字 import ddddocr ocr = ddddocr.DdddOcr() res = requests.get('https://'+img_src,headers=headers) # print(res.content) # with open('./images/num_img1.png','wb') as f: # f.write(res.content) res = ocr.classification(res.content) print(res)
测试中识别的数字为 5471380629,然后将其拆解即可。
测试发现截取图片地址的时候,有时候会出现图片地址错误,建议大家依旧使用正则表达式获取。
最后就是坐标与数字的对应关系了
-21.4:第一个数字 -42.8:第二个数字 -64.2:第三个数字
其余的都参考这个原理即可。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~