Python网络爬虫神器PyQuery的使用方法(pyquery爬取)

网友投稿 388 2022-08-24


Python网络爬虫神器PyQuery的使用方法(pyquery爬取)

#!/usr/bin/env python # -*- coding: utf-8 -*-import requestsfrom pyquery import PyQuery as pqurl = '= { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36' ' (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}# 请求网页链接 获取页面源码r = requests.get(url, headers=headers).textdoc = pq(r)# 获取网页的全部章节链接 这里去掉了前面的最新章节部分 直接从第一章开始 # div#book_detail:nth-child(2) 选取的是第二个div的内容links = doc('div#book_detail:nth-child(2) li a').items()for link in links: download_url = link.attr('href') # 请求每个章节 download_page = requests.get(download_url, headers=headers).text # 获取每一章节的源码 doc = pq(download_page) # 获取每一章小说的内容 contents = doc('div#content').text() with open('花千骨.txt', 'a+', encoding='utf8') as f: f.write(link.text()+"\n\n") f.write(contents+"\n\n")print("写入文件完成!请查看")

1.安装方法

pip install pyquery

2.引用方法

from pyquery import PyQuery as pq

3.简介

pyquery 是类型jquery 的一个专供python使用的html解析的库,使用方法类似bs4。

4.使用方法

4.1 初始化方法:

from pyquery import PyQuery as pqdoc =pq(html) #解析html字符串doc =pq("#解析网页doc =pq("./a.html") #解析html 文本

4.2 基本CSS选择器

from pyquery import PyQuery as pqhtml = '''