如何利用python爬取网易新闻（python简单爬取新浪新闻）-eolink官网

如何利用python爬取网易新闻（python简单爬取新浪新闻）

学习了python基本语法后，对爬虫产生了很大的兴趣，废话不多说，今天来爬取网易新闻，实战出真知。

打开网易新闻可以发现新闻分为这样的几个板块：

这次选择国内板块来爬取文章。

1. 准备

环境：python3

编译器：PyCharm

安装 selenium 针对三大浏览器驱动 driver

下载地址

chromedriver：https://code.google.com/p/chromedriver/downloads/list

Firefox 的驱动 geckodriver：https://github.com/mozilla/geckodriver/releases/

IE 的驱动 IEdrive：http://nuget.org/packages/Selenium.WebDriver.IEDriver/

了解网页

网页绚丽多彩，美轮美奂，如同一幅水彩画。爬取数据首先需要知道所需要抓取的数据是怎样的呈现的，就像学作一幅画，开始前你要知道这幅画是用什么画出来的，铅笔还是水彩笔…可能种类是多样的，但是放到网页信息来说这儿只有两种呈现方式：

HTML

JSON

HTML是用来描述网页的一种语言

JSON是一种轻量级的数据交换格式

爬取网页信息其实就是向网页提出请求，服务器就会将数据反馈给你

2. 获得动态加载源码

导入需要的用的模块和库：

获取网页信息需要发送请求，requests 能帮我们很好的完成这件事，但是仔细观察发现网易新闻是动态加载，requests 返回的是即时信息，网页部分稍后加载出来的数据没有返回，这种情况 selenium 能够帮助我们得到更多的数据，我们将 selenium 理解为一个自动化测试工具就好，Selenium 测试直接运行在浏览器中，就像真正的用户在操作一样。

我使用的浏览器为Firefox

1 browser = webdriver.Firefox()#根据浏览器切换

2 browser.maximize_window()#最大化窗口

3 browser.get('http://news.163.com/domestic/')

这样我们就能驱动浏览器自动登陆网易新闻页面

我们的目标自然是一次将国内板块爬取下来，观察网页，在网页不断向下刷时，新的新闻才会加载出来，到最下面甚至还有需要点击按钮才能刷新：

这时使用 selenium 就能展现其优势：自动化，模拟鼠标键盘操作：

1 diver.execute_script("window.scrollBy(0,5000)")

2 #使网页向下拉，括号内为每次下拉数值

在网页中右键点击加载更多按钮，点击查看元素，可以看到

通过这个 class 就可以定位到按钮，碰到按钮时，click 事件就能帮助我们自动点击按钮完成网页刷新

获取有用信息

同样在文章标题区域右键点击查看元素：

观察网页结构发现每一个div标签class=“news_title" 下都是文章的标题和超链接。soup.find_all()函数能帮我们找到我们想要的全部信息，这一级结构下的内容就能一次摘取出来。最后通过字典，把标签信息，挨个个取出来。

4. 获取新闻内容

自此，新闻链接已经被我们取出来存到列表里了，现在需要做的就是利用链接得到新闻主题内容。新闻主题内容页面为静态加载方式，requests 能轻松处理：

使用 try except的原因在于，网易新闻文章在某个时间段前后，文本信息所处位置标签不一样，对不同的情况应作出不同的处理。

最后遍历整个列表取出全部文本内容：

存储数据到本地txt文件

python 提供了处理文件的函数open（），第一个参数为文件路径，第二为文件处理模式，"w" 模式为只写（不存在文件则创建，存在则清空内容）

一个简单的爬虫至此就编写成功：

Python接口自动化之文件上传/下载接口怎么实现

524 2022-06-19

如何利用python爬取网易新闻（python简单爬取新浪新闻）

java中的接口是类吗

Spring中的aware接口详情

Python接口自动化之文件上传/下载接口怎么实现

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

软件接口设计怎么做？前后端分离软件接口设计思路

接口管理平台推荐，几大接口管理平台总有一款适合你！