Flask接口签名sign原理与实例代码浅析
599
2022-08-25
【python爬虫专项(2)】网页结构剖析(python爬虫分析网页)
1. 如何查看网页结构
以豆瓣网为例:- chrome
2)开启开发者模式:右键 → 检查
3)查看源代码:右键 → 查看网页源代码
2. 如何构建爬虫逻辑
2.1 一个简单的框架图
2.2 爬虫基本逻辑(一):【分页网页url采集】-【数据信息网页url采集】-【数据采集】
该逻辑1个数据信息网页采集1条数据
第一步【分页网页url采集】→ 得到一个分页的urllst1
① 找到分页网址 → 比如这里以之前的爬取实习僧网站的python实习生的信息举例
https://shixiseng.com/interns?page=1&keyword=python&type=intern&area=&months=&days=°ree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%8C%97%E4%BA%AC&internExtend=
https://shixiseng.com/interns?page=2&keyword=python&type=intern&area=&months=&days=°ree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%8C%97%E4%BA%AC&internExtend=
。。。。。。
② 这里由于网页只需要更改“page=…”,所以通过for循环即可
第二步【数据信息网页url采集】→ 得到一个数据页的urllst2
① 基于分页网址urllst1,采集每一个数据页面的url,并存入urllst2
https://shixiseng.com/intern/inn_j34ozcntlsab
https://shixiseng.com/intern/inn_fxckjairtwke
这里需要用到requests + BeautifulSoup实现
第三步【数据采集】→ 每条数据存进一个dict,所有dict组成一个datalst列表 ① 通过BeautisulSoup解析标签,采集数据
② 通过BeautisulSoup实现(接下来要将的内容)
2.3 爬虫基本逻辑(二):【分页网页url采集】-【数据采集】
该逻辑也可以称为:“循环标签采集”:1个分页网页采集n条数据
优势:相比于第一种逻辑,访问网页次数较少,容易避开反爬
劣势:相比于第一种逻辑,获取信息较少
第一步【分页网页url采集】→ 得到一个分页的urllst1
① 找到分页网址 → 比如这里以之前的爬取实习僧网站的python实习生的信息举例
https://shixiseng.com/interns?page=1&keyword=python&type=intern&area=&months=&days=°ree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%8C%97%E4%BA%AC&internExtend=
https://shixiseng.com/interns?page=2&keyword=python&type=intern&area=&months=&days=°ree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%8C%97%E4%BA%AC&internExtend=
这里由于网页只需要更改“page=…”,所以通过for循环即可
第二步【数据采集】→ 每条数据存进一个dict,所有dict组成一个datalst列表 ① 通过for循环依次采集该页面的多个标签
② 通过BeautisulSoup实现,进行网页的解析,获取标签信息全部存到dict里面
3.需要掌握的内容
网络资源访问工具:requests
掌握requests工具包,学会通过python访问网站,并做简单的内容识别
网页信息解析方法:Xpath与BeautifulSoup
掌握BeautifulSoup工具包,理解xpath网页解析方法,基本掌握静态网页的页面数据识别
爬虫数据库:MongoDB
掌握非关系数据库MongoDB,并且学会用python连接及使用MongoDB,管理采集数据
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~