【Python技能树共建】pyspider框架的使用（python pyspider）-eolink官网

【Python技能树共建】pyspider框架的使用（python pyspider）

pyspider 实战案例微医挂号网专家团队数据

今天尝试使用一个新的爬虫库进行数据的爬取，这个库叫做pyspider，国人开发的，当然支持一下。

github地址： install pyspider

安装之后，启动在CMD控制台里面敲入命令

pyspider

出现如下界面，代表运行成功，一般情况下，你的电脑如果没有安装 phantomjs 他会先给你安装一下。

接下来打开浏览器，访问地址输入 127.0.0.1:5000, 应该显示如下界面，就可以愉快的进行编码了~

3步创建一个项目

微医挂号网专家团队数据----库基本使用入门

这款工具的详细使用，给你提供一个非常好的博文，写的很完善了，我就不在赘述了。咱们直接进入到编码的部分。

微医挂号网专家团队数据----爬虫源码

我们要爬取的目标站点是微医挂号网专家团队数据网页地址84页的时候，数据竟然开始重复了，应该是网站本身系统的问题，这个没有办法。

爬虫流程

获取总页数循环爬取每页的数据

爬取总页数

在入口函数on_start的位置去爬取第一页数据，爬取成功之后调用index_page函数

from pyspider.libs.base_handler import * import pandas as pd class Handler(BaseHandler): crawl_config = { } @every(minutes=24 * 60) def on_start(self): self.crawl('callback=self.index_page,validate_cert=False)

index_page函数用来获取页码总数，并且将所有待爬取的地址存放到self.crawl中，这个地方因为数据重复的原因，最终硬编码为84页数据了

@config(age=10 * 24 * 60 * 60) def index_page(self, response): doctors = response.json if doctors: if doctors["data"]: page_count = doctors["data"]["pageCount"] #for page in range(1,page_count+1): for page in range(1,85): self.crawl('csv 文件里面

@config(priority=2) def detail_page(self, response): doctors = response.json data = doctors["data"]["list"] return data def on_result(self,result): if result: print("正在存储数据....") data = pd.DataFrame(result) data.to_csv("专家数据.csv", mode='a', header=False, encoding='utf_8_sig')

等着就可以了

微医挂号网专家团队数据----最后几步

Web UI 控制台上的 rate/burst 参数来调节速度，rate 是每秒抓取的数量，burst 是并发的数量

写完啦~ 得到了 ·1000·多个专家团队。

Python接口自动化之文件上传/下载接口怎么实现

391 2022-09-04

【Python技能树共建】pyspider框架的使用（python pyspider）

java中的接口是类吗

Spring中的aware接口详情

Python接口自动化之文件上传/下载接口怎么实现

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

软件接口设计怎么做？前后端分离软件接口设计思路

接口管理平台推荐，几大接口管理平台总有一款适合你！