【Python技能树共建】Beautiful Soup（Python技能树）-eolink官网

【Python技能树共建】Beautiful Soup（Python技能树）

Beautiful Soup模块是什么

初学 Python 爬虫，十之八九你采集的目标是网页，因此快速定位到网页内容，就成为你面临的第一道障碍，本篇博客就为你详细说明最易上手的网页元素定位术，学完就会系列。

本文核心使用到的是 Beautiful Soup 模块，因此我们用来做测试采集的站点，也是其官网（现阶段爬虫采集越来越严格，很多站点不能在采集了，很容易被封杀，只能学谁就采集谁了）

官方站点

crummy.com/software/BeautifulSoup/

Beautiful Soup 在 Python 爬虫圈知名度极高，而且非常好用，它是一款 Python 解析库，主要用于将 HTML 标签转换为 Python 对象树，然后让我们从对象树中提取数据。

模块的安装及其简单：

pip install bs4 -i 国内任意源即可

未来安装任何模块，都尽量使用国内源，速度快稳定。

该模块包名称为 bs4，安装的时候需要特别注意下。

基础用法如下所示

import requests from bs4 import BeautifulSoup def ret_html(): """获取HTML元素""" res = requests.get('timeout=3) return res.text if __name__ == '__main__': html_str = ret_html() soup = BeautifulSoup(html_str, 'lxml') print(soup)

其中需要注意的就是模块导入代码，以及实例化 soup 对象时，在 BeautifulSoup 类的构造函数中传递的两个参数，一个是待解析的字符串，另一个是解析器，官方建议的是 lxml，因其解析速度快。

BeautifulSoup 模块的对象说明

BeautifulSoup 类可以将 HTML 文本解析成 Python 对象树，而这里面又包括最重要的四种对象，分别是 Tag，NavigableString，BeautifulSoup，Comment 对象，接下来我们一一介绍。

BeautifulSoup 对象

该对象本身就代表整个 HTML 页面，而且实例化该对象的时候，还会自动补齐 HTML 代码。

html_str = ret_html() soup = BeautifulSoup(html_str, 'lxml') print(type(soup))

Tag 对象

Tag 是标签的意思，Tag 对象就是网页标签，或者叫做网页元素对象，例如获取 bs4 官网的 h1 标签对象，代码如下所示：

if __name__ == '__main__': html_str = ret_html() soup = BeautifulSoup(html_str, 'lxml') # print(soup.prettify()) # 格式化 HTML print(soup.h1)

得到的也是网页中的 h1 标签：

Beautiful Soup

用 Python 中的 type 函数，可以查看其类型，代码如下：

print(soup.h1) print(type(soup.h1))

此时得到的可不是一个字符串，而是一个 Tag 对象。

Beautiful Soup

既然是 Tag 对象，那就会具备一些特定的属性值

获取标签名称

print(soup.h1) print(type(soup.h1)) print(soup.h1.name) # 获取标签名称

通过 Tag 对象获取标签的属性值

print(soup.img) # 获取网页第一个 img 标签 print(soup.img['src']) # 获取网页元素DOM的属性值

通过 attrs 属性获取标签的所有属性

print(soup.img) # 获取网页第一个 img 标签 print(soup.img.attrs) # 获取网页元素的所有属性值，以字典形式返回

以上代码的所有输出如下所示，可以任意选择标签进行练习。

Beautiful Soup h1 {'align': 'right', 'src': '10.1.jpg', 'width': '250'}

NavigableString 对象

NavigableString 对象获取的是标签内部的文字内容，例如 p 标签，在下述代码中提取的是我是橡皮擦

我是橡皮擦

获取该对象也非常容易，使用 Tag 对象的 string 属性即可。

nav_obj = soup.h1.string print(type(nav_obj))

输出结果如下所示

如果目标标签是一个单标签，会获取到 None 数据

除了使用对象的 string 方法外，还可以使用 text 属性和 get_text() 方法来获取标签内容

print(soup.h1.text) print(soup.p.get_text()) print(soup.p.get_text('&'))

其中 text 是获取所有子标签内容的合并字符串，而 get_text() 也是相同的效果，不过使用 get_text() 可以增加一个分隔符，例如上述代码的 & 符号，还可以使用，strip=True 参数去除空格。

Comment 对象

获取网页注释内容，用处不大，忽略即可。

BeautifulSoup 对象和 Tag 对象支持标签查找方法，具体内容如下所示。

find() 方法和 find_all() 方法

调用 BeautifulSoup 对象和 Tag 对象的 find() 方法，可以在网页中找到指定对象，该方法的语法格式如下：

obj.find(name,attrs,recursive,text,**kws)

方法的返回结果是查找到的第一个元素，如果没查询到，返回 None。参数说明如下：

name：标签名称； attrs：标签属性； recursive：默认搜索所有后代元素； text：标签内容。

例如我们继续在上文请求的网页中，查找 a 标签，代码如下：

html_str = ret_html() soup = BeautifulSoup(html_str, 'lxml') print(soup.find('a'))

也可以使用 attrs 参数进行查找，代码如下：

html_str = ret_html() soup = BeautifulSoup(html_str, 'lxml') # print(soup.find('a')) print(soup.find(attrs={'class': 'cta'}))

find() 方法还提供了一些特殊的参数，便于直接查找，例如可以使用 id=xxx，查找属性中包含 id 的标签，可以使用 class_=xxx，查找属性中包含 class 的标签。

print(soup.find(class_='cta'))

与 find() 方法成对出现的是 find_all() 方法，看名称就能知道其返回结果收是全部匹配标签，语法格式如下：

obj.find_all(name,attrs,recursive,text,limit)

其中重点说明一下 limit 参数，它表示最多返回的匹配数量，find() 方法可以看作 limit=1，这样就变得容易理解了。

使用SoapUI测试webservice接口详细步骤

256 2022-09-03

【Python技能树共建】Beautiful Soup（Python技能树）

Gointerface接口声明实现及作用详解

使用SoapUI测试webservice接口详细步骤

使用SpringBoot实现API接口

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路