java中的接口是类吗
388
2022-08-24
Python网络爬虫神器PyQuery的使用方法(pyquery爬取)
#!/usr/bin/env python # -*- coding: utf-8 -*-import requestsfrom pyquery import PyQuery as pqurl = '= { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36' ' (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}# 请求网页链接 获取页面源码r = requests.get(url, headers=headers).textdoc = pq(r)# 获取网页的全部章节链接 这里去掉了前面的最新章节部分 直接从第一章开始 # div#book_detail:nth-child(2) 选取的是第二个div的内容links = doc('div#book_detail:nth-child(2) li a').items()for link in links: download_url = link.attr('href') # 请求每个章节 download_page = requests.get(download_url, headers=headers).text # 获取每一章节的源码 doc = pq(download_page) # 获取每一章小说的内容 contents = doc('div#content').text() with open('花千骨.txt', 'a+', encoding='utf8') as f: f.write(link.text()+"\n\n") f.write(contents+"\n\n")print("写入文件完成!请查看")
1.安装方法
pip install pyquery
2.引用方法
from pyquery import PyQuery as pq
3.简介
pyquery 是类型jquery 的一个专供python使用的html解析的库,使用方法类似bs4。
4.使用方法
4.1 初始化方法:
from pyquery import PyQuery as pqdoc =pq(html) #解析html字符串doc =pq("#解析网页doc =pq("./a.html") #解析html 文本
4.2 基本CSS选择器
from pyquery import PyQuery as pqhtml = '''
运行结果:
运行结果:
运行结果:
运行结果:
hello nihao
运行结果:
hello nihao
运行结果:
获取文本
from pyquery import PyQuery as pqhtml = '''
运行结果
asdadasdad12312asdadasdad12312asdadasdad12312
4.9 获取 HTML信息
from pyquery import PyQuery as pqhtml = '''
运行结果:
asdadasdad12312asdadasdad12312asdadasdad12312
5.常用DOM操作
5.1 addClass removeClass
添加,移除class标签
from pyquery import PyQuery as pqhtml = '''
运行结果
添加: hello nihao
运行结果
C:\Python27\python.exe D:/test_his/test_re_1.py修改:asdadasdad12312 修改:asdadasdad12312 修改:asdadasdad12312
attr css操作直接修改对象的
5.3 remove
remove 移除标签
from pyquery import PyQuery as pqhtml = '''
运行结果
移除前获取文本结果:hello nihaoasdasdasdadasdad12312asdadasdad12312asdadasdad12312移除后获取文本结果:hello nihao
其他DOM方法参考:
pyquery import PyQuery as pqhtml = '''
运行结果
第一个标签:helloasdadasdad12312
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~