scrapy--pipelines基本用法--如何自定义ImagesPipeline抓取图片（scrapy imagepipeline）-eolink官网

scrapy--pipelines基本用法--如何自定义ImagesPipeline抓取图片（scrapy imagepipeline）

1.常用功能

class testPipeline(object): def __init__(self): """ 初始化一些事情，例如打开文件，写入表头，只运行一次 """ pass def process_item(self,item,spider): """ 这个方法被每个item pipeline组件调用，并且必须返回 """ return item def open_spider(self,spider): """ 爬虫开启时运行 """ def close_spider(self,spider): """ 爬虫关闭时运行 """ @classmethod def from_crawler(cls,crawler): ''' 当调用类方法时，会生成一个pipeline的实例，也必须返回一个pipeline实例比如得到settings文件中的mysql登录的端口号 val = crawler.settings.get("MYSQL_HOST") return cls(val) '''

面几个函数都有spider参数，spider有name属性，是爬虫的名字，当一个文件里有多个spider和多个Pipeline类时可以通过这个来确保spider与Pipeline类对应起来。

2.DropItem

from scrapy.exceptions import DropItemif item['price'] == ' ': DropItem()

如果抓取到的房子价格为空，就可以用此方法丢掉。

当有多个pipeline类时，抓取的数据会按照优先级传递数据，这时也可以在return item前加上raise Dropitem()便不会向下一级传递item。

3.settings

写好pipelines后一定不要忘记在settings中进行设置

ITEM_PIPELINES = { 'scrapy1.pipelines.TestPipele': 300,}

后面的数字从0到1000，数值越小优先级越高

scrapy也提供了很多方便的文件输出，例如在命令行下

scrapy runspider test.py -o test_data.csv而且还提供了CsvItemExporter的类，我还没有搞懂，等明白了再分享出来。

4.ImagesPipeline

scrapy提高了图片的处理管道，在系列文章破冰中也简单运用了一下，若想做一些高级功能，还需对类中的方法进行重写。三个重要的方法：

1.get_media_requests(self, item, info)

2.file_path(self, request, response=None, info=None)

依旧对丫丫女神进行抓取：

这是四个图集，红框是等会要用来命名文件夹名称的，要进入图集后里面会有若干图片。

class ImagedowPipeline(ImagesPipeline): def get_media_requests(self, item, info): for img_url in item['image']: yield Request(img_url, meta={'item':item}) #将图片链接交给Request，item传递给file_path函数 def file_path(self, request, response=None, info=None): item = request.meta['item'] folder_name = item['name'] #接收传过来的item filename = '{0}//{1}'.format(folder_name, str(random.random()))+".jpg" #文件夹名称是红框里的信息，每个图片是用随机数命名 return filename

Python接口自动化之文件上传/下载接口怎么实现

351 2022-09-04

scrapy--pipelines基本用法--如何自定义ImagesPipeline抓取图片（scrapy imagepipeline）

java中的接口是类吗

Spring中的aware接口详情

Python接口自动化之文件上传/下载接口怎么实现

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路