Flask接口签名sign原理与实例代码浅析
248
2022-10-22
DC免费课程(三)|第一个完全详解实战教程来了!
先来看看页面长啥样的:xpath 信息并不是完全可靠的,浏览器经常会自己在里面增加多余的 tbody 标签,我们需要手动把这些标签删掉。
修改 xpath 后再来尝试,结果如下:
切记:浏览器复制 xpath 不是完全可靠,看到 tbody 标签特别要注意。
分别复制《追风筝的人》、《小王子》、《围城》、《解忧杂货店》的 xpath 信息进行对比:
比较可以发现书名的 xpath 信息仅仅 table 后的序号不一样,并且跟书的序号一致,于是去掉序号(去掉 tbody),我们可以得到通用的 xpath 信息
好了,我们试试把这一页全部书名爬下来:
2.爬取多个信息
分别复制《追风筝的人》、《小王子》、《围城》、《解忧杂货店》评分的 xpath 信息进行对比:
相信你已经可以秒写出爬取全部评分的xpath了:
把评分的xpath放入之前的代码,运行:
现在我们再把书名和评分同时爬取下来:
这里我们默认书名和评分爬到的都是完全的、正确的信息,这种默认一般情况没问题,但其实是有缺陷的,如果我们某一项少爬或多爬了信息,那么两种数据的量就不一样了,从而匹配错误。比如下面的例子:
书名xpath 后的@title 改为 text(),获取的文本数量与评分数量不一致,出现匹配错位。
如果我们以每本书为单位,分别取获取对应的信息,那肯定完全匹配。
书名的标签肯定在这本书的框架内,于是我们从书名的标签向上找,发现覆盖整本书的标签(左边网页会有代码包含内容的信息),把xpath 信息复制下来:
我们将整本书和书名的xpath进行对比
不难发现,书名和评分 xpath 的前半部分和整本书的 xpath 一致的,
那我们可以通过这样写 xpath 的方式来定位信息:
在实际的代码中来看一下:
刚刚我们爬了一本书的信息,那如何爬这个页面所有书呢?很简单啊,把 xpath 中
暂时没有评论,来抢沙发吧~