python学习-爬虫必备知识(python爬虫高级知识)

网友投稿 303 2022-09-08


python学习-爬虫必备知识(python爬虫高级知识)

前端相关

HTML之CSS选择器

CSS标签内容获取

Xpath表达式

常用解析HTML模块以及方法

Beautiful Soup模块

lxml.etree模块-Xpath解析

Requests-HTML模块

常用网络请求模块

requests模块-get()方法

requests模块-post()方法

Requests-HTML模块-get()方法

Requests-HTML模块-post()方法

urlib3模块-requests()方法

相关模块介绍

urllib3

Urllib3是一个功能强大,条理清晰,用于HTTP客户端的Python库,许多Python的原生系统已经开始使用urllib3。Urllib3提供了很多python标准库里所没有的重要特性:

线程安全 连接池客户端SSL/TLS验证文件分部编码上传协助处理重复请求和HTTP重定位支持压缩编码支持HTTP和SOCKS代理100%测试覆盖率

Beautiful Soup模块

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果,和处理异常情况.

Requests-HTML模块

具备requests的功能以外,还新增了一些更加强大的功能,用起来比requests更爽!

支持JavaScript支持CSS选择器(又名jQuery风格, 感谢PyQuery)支持Xpath选择器可自定义模拟User-Agent(模拟得更像真正的web浏览器)自动追踪重定向连接池与cookie持久化支持异步请求

推荐使用requests-html代替requests


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:#yyds干货盘点#os.getcwd()读取路径 - python基础学习系列(60)
下一篇:Java中JDBC连接池的基本原理及实现方式
相关文章

 发表评论

暂时没有评论,来抢沙发吧~