DC免费课程（三）|第一个完全详解实战教程来了！-eolink官网

DC免费课程（三）|第一个完全详解实战教程来了！

先来看看页面长啥样的:xpath 信息并不是完全可靠的，浏览器经常会自己在里面增加多余的 tbody 标签，我们需要手动把这些标签删掉。

修改 xpath 后再来尝试，结果如下:

切记：浏览器复制 xpath 不是完全可靠，看到 tbody 标签特别要注意。

分别复制《追风筝的人》、《小王子》、《围城》、《解忧杂货店》的 xpath 信息进行对比：

比较可以发现书名的 xpath 信息仅仅 table 后的序号不一样，并且跟书的序号一致，于是去掉序号（去掉 tbody），我们可以得到通用的 xpath 信息

好了，我们试试把这一页全部书名爬下来:

2.爬取多个信息

分别复制《追风筝的人》、《小王子》、《围城》、《解忧杂货店》评分的 xpath 信息进行对比：

相信你已经可以秒写出爬取全部评分的xpath了：

把评分的xpath放入之前的代码，运行：

现在我们再把书名和评分同时爬取下来：

这里我们默认书名和评分爬到的都是完全的、正确的信息，这种默认一般情况没问题，但其实是有缺陷的，如果我们某一项少爬或多爬了信息，那么两种数据的量就不一样了，从而匹配错误。比如下面的例子:

书名xpath 后的@title 改为 text()，获取的文本数量与评分数量不一致，出现匹配错位。

如果我们以每本书为单位，分别取获取对应的信息，那肯定完全匹配。

书名的标签肯定在这本书的框架内，于是我们从书名的标签向上找，发现覆盖整本书的标签（左边网页会有代码包含内容的信息），把xpath 信息复制下来：

我们将整本书和书名的xpath进行对比

不难发现，书名和评分 xpath 的前半部分和整本书的 xpath 一致的，

那我们可以通过这样写 xpath 的方式来定位信息：

在实际的代码中来看一下：

刚刚我们爬了一本书的信息，那如何爬这个页面所有书呢？很简单啊，把 xpath 中

后面定位的序号去掉就ok。

终于看到庐山真面目了，不过，等等~

为什么这两行后面多了个 [0] 呢？我们之前爬出来的数据是列表,外面带个方框，看着非常难受,列表只有一个值，对其取第一个值就OK。如果不熟悉列表的知识，可以回去补补。

接下来就是按照这样的方式多爬几个元素啦！

有一个点需要注意的是：

这行代码用了几个 strip() 方法，()里面表示要删除的内容，strip(“(”) 表示删除括号， strip() 表示删除空白符。

嗯，已经把一个页面搞定了，接下来需要，把所有页面的信息都爬下来。

3.翻页，爬取所有页面信息

先来看一下翻页后url是如何变化的：

url 变化的规律很简单，只是 start=() 的数字不一样而已，而且是以每页25为单位，递增25，这不正是每页的书籍的数量吗？于是，我们只需要写一个循环就可以了啊。

这里要强调一下 Python range() 函数

基本语法：range(start, stop, step)start：计数从 start 开始。默认是从 0 开始。例如 range(5) 等价于range(0,5);end：计数到 end 结束，但不包括 end。例如：range（0,5）是 [0,1,2,3,4] 没有5step：步长，默认为1。例如：range(0,5) 等价于 range(0,5,1)

加上循环之后，完整代码如下：

来运行一下：

请务必要自己练习几遍，你觉得自己看懂了，还是会出错，不信我们赌五毛钱。

Python 的基础语法很重要，没事的时候多去看看：字符串、列表、字典、元组、条件语句、循环语句……

编程最重要的是实战，比如你已经能够爬TOP250的图书了，去试试TOP250电影呢。

好了，这节课就到这里！

标签：代码

Flask接口签名sign原理与实例代码浅析

248 2022-10-22

zookeeper python接口实例详解

248 2022-10-22

c#自定义Attribute获取接口实现示例代码

248 2022-10-22

发表评论

暂时没有评论，来抢沙发吧~

DC免费课程（三）|第一个完全详解实战教程来了！

Flask接口签名sign原理与实例代码浅析

zookeeper python接口实例详解

c#自定义Attribute获取接口实现示例代码

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路