Python网络爬虫神器PyQuery的使用方法（pyquery爬取）-eolink官网

Python网络爬虫神器PyQuery的使用方法（pyquery爬取）

#!/usr/bin/env python # -*- coding: utf-8 -*-import requestsfrom pyquery import PyQuery as pqurl = '= { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36' ' (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}# 请求网页链接获取页面源码r = requests.get(url, headers=headers).textdoc = pq(r)# 获取网页的全部章节链接这里去掉了前面的最新章节部分直接从第一章开始 # div#book_detail:nth-child(2) 选取的是第二个div的内容links = doc('div#book_detail:nth-child(2) li a').items()for link in links: download_url = link.attr('href') # 请求每个章节 download_page = requests.get(download_url, headers=headers).text # 获取每一章节的源码 doc = pq(download_page) # 获取每一章小说的内容 contents = doc('div#content').text() with open('花千骨.txt', 'a+', encoding='utf8') as f: f.write(link.text()+"\n\n") f.write(contents+"\n\n")print("写入文件完成!请查看")

1.安装方法

pip install pyquery

2.引用方法

from pyquery import PyQuery as pq

3.简介

pyquery 是类型jquery 的一个专供python使用的html解析的库，使用方法类似bs4。

4.使用方法

4.1 初始化方法：

from pyquery import PyQuery as pqdoc =pq(html) #解析html字符串doc =pq("#解析网页doc =pq("./a.html") #解析html 文本

4.2 基本CSS选择器

from pyquery import PyQuery as pqhtml = '''

运行结果：

运行结果:

运行结果：

hello nihao

运行结果：

hello nihao

运行结果：

获取文本

from pyquery import PyQuery as pqhtml = '''

hello nihao

运行结果

asdadasdad12312asdadasdad12312asdadasdad12312

4.9 获取 HTML信息

from pyquery import PyQuery as pqhtml = '''

hello nihao

运行结果：

asdadasdad12312asdadasdad12312asdadasdad12312

5.常用DOM操作

5.1 addClass removeClass

添加，移除class标签

from pyquery import PyQuery as pqhtml = '''

hello nihao

运行结果

添加: hello nihao

运行结果

C:\Python27\python.exe D:/test_his/test_re_1.py修改:asdadasdad12312 修改:asdadasdad12312 修改:asdadasdad12312

attr css操作直接修改对象的

5.3 remove

remove 移除标签

from pyquery import PyQuery as pqhtml = '''

hello nihao

运行结果

移除前获取文本结果:hello nihaoasdasdasdadasdad12312asdadasdad12312asdadasdad12312移除后获取文本结果:hello nihao

其他DOM方法参考：

pyquery import PyQuery as pqhtml = '''

hello nihao

运行结果

第一个标签:helloasdadasdad12312

标签：文件

暂时没有评论，来抢沙发吧~

Python网络爬虫神器PyQuery的使用方法（pyquery爬取）

java中的接口是类吗

Spring中的aware接口详情

Python接口自动化之文件上传/下载接口怎么实现

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路

Python网络爬虫神器PyQuery的使用方法（pyquery爬取）

微信扫一扫：分享

推荐文章

最近发表

热评文章