Python爬虫之使用正则表达式抓取数据(爬虫 正则表达式怎么看匹配)

网友投稿 309 2022-08-24


Python爬虫之使用正则表达式抓取数据(爬虫 正则表达式怎么看匹配)

目录

​​匹配标签​​

​​匹配title标签​​

​​a标签​​

​​table标签​​

​​匹配标签里面的属性​​

​​匹配a标签里面的URL​​

​​匹配img标签里的 src​​

相关文章:Linux中的正则表达式

Python中的正则表达式

实例:

匹配标签

匹配title标签

匹配网页的  标签,也就是网页的标题。  .*? 就是匹配1个或多个字符,也就是这里不能是空的。当加入括号的话,就是代表取值了 (.*?)

import reimport requestsresp=requests.get(" #设置编码格式为utf-8html=resp.text title=re.findall(r'.*?',html) #匹配 for t in title: print(t)title_value=re.findall(r'(.*?)',html) #匹配 里面的内容for t in title_value: print(t)#####################################################################百度一下,你就知道百度一下,你就知道

a标签

匹配 ,并且获取a标签里面的内容

import reimport requestsresp=requests.get(" #设置编码格式为utf-8html=resp.text urls = re.findall(r".*?<\/a>", html) #匹配所有的a标签for u in urls: print(u) texts = re.findall(r"(.*?)", html) #获取超链接之间内容for t in texts: print(t)#######################################################################################新闻hao123地图视频贴吧登录登录更多产品意见反馈新闻hao123地图视频贴吧登录登录更多产品关于百度About Baidu使用百度前必读意见反馈

table标签

抓取

假设现在有这么一个网页

姓名 性别
小谢
小红

匹配代码

import reimport requestsresp=requests.get(" #设置编码格式为utf-8html=resp.text #匹配table标签tables=re.findall(r".*?<\/table>",html,re.M|re.S)for table in tables: print(table)#匹配之间的内容trs=re.findall(r"(.*?)",html,re.S|re.M) #因为标签大多数不是在同一行,所以要加 re.S和re.M多行匹配for tr in trs: print(tr)#匹配之间的内容for row in trs: ths=re.findall(r"(.*?)",row,re.S|re.M) for th in ths: print(th) #匹配之间的内容for row in trs: tds=re.findall(r"(.*?)",row,re.S|re.M) for td in tds: print(td)##################################################################################

姓名 性别
小谢
小红
姓名 性别 小谢 男 小红 女 姓名性别小谢男小红女

匹配标签里面的属性

匹配a标签里面的URL

假如现在有网页

加入现在有网页


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Python脚本写端口扫描器(socket,python-nmap)
下一篇:spring boot 导出数据到excel的操作步骤(demo)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~