爬虫xpath学习(Python网络爬虫从入门到实践)
#xpath是在xml文档中搜索内容的一门语言#html是xml的子集xml = """ 1 野花遍地⾹ 1.23 臭⾖腐 周⼤强 周芷若 周杰伦 蔡依林 惹了
胖胖陈 胖胖不陈 """from lxml import etreetree=etree.XML(xml)#result=tree.xpath("/book/name") #/表示层级关系,第一个/是根节点#result=tree.xpath("/book/name/text()")result=tree.xpath("/book/*//nick/text()")#双斜杠表示找后代,*是通配符什么节点都可以#parse是加载文件print(result)
#xpath是在xml文档中搜索内容的一门语言#html是xml的子集xml = """ 1 野花遍地⾹ 1.23 臭⾖腐 周⼤强 周芷若 周杰伦 蔡依林 惹了
胖胖陈 胖胖不陈 """from lxml import etree# tree=etree.XML(xml)# #result=tree.xpath("/book/name") #/表示层级关系,第一个/是根节点# #result=tree.xpath("/book/name/text()")# result=tree.xpath("/book/*//nick/text()")#双斜杠表示找后代,*是通配符什么节点都可以# #parse是加载文件# print(result)tree=etree.parse("b.html",etree.HTMLParser())# result=tree.xpath("/html/body/ol/li/a[@href='dapao']/text()")ol_list=tree.xpath("/html/body/ul/li")for l in ol_list: #从每一个li提取到文字信息 #res=l.xpath("./a/text()")#继续查找 res=l.xpath("./a/@href") print(res)res1=tree.xpath("/html/body/div[1]/text()")print(res1)
上面是xpath的语法,目前来说三种爬虫,xpath应该是最简单的,正则是最万能的,xpath主要对于界面元素可以直接通过复制xpath路径直接获取不需要自己分析源代码
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
暂时没有评论,来抢沙发吧~