【原创】微博关键词爬虫（所有微博原创微博）-eolink官网

【原创】微博关键词爬虫（所有微博原创微博）

本文所有教程及源码、软件仅为技术研究。不涉及计算机信息系统功能的删除、修改、增加、干扰，更不会影响计算机信息系统的正常运行。不得将代码用于非法用途，如侵立删！

记一次阿里云盾滑块验证分析并通过

操作环境

win10 、 mac Python3.9

数据接口

搜索 https://**********?containerid=100103type%3D{chanenl}%26q%3D{quote(self.words)}&page_type=searchall&page={page} user info https://**********?title=%E5%9F%BA%E6%9C%AC%E8%B5%84%E6%96%99&value={userid}' proxy配置

==使用socks需安装：pip install -U 'requests[socks]'==

def _proxy(self): """ 调用 :return: """ # 判断IP是否过期 new_time = datetime.datetime.now() if self.expire_time and new_time < datetime.datetime.strptime(self.expire_time, "%Y-%m-%d %H:%M:%S"): # # 当前时间小于到期时间证明可用 # if new_time < datetime.datetime.strptime(self.expire_time, "%Y-%m-%d %H:%M:%S"): print(f'当前使用IP:{self.proxies} 过期时间：{self.expire_time}') return proxy = Proxy() ip_port, expire_time = proxy.main() self.headers = proxy.headers self.proxies = { ''socks5://{}'.format(ip_port), ''socks5://{}'.format(ip_port) } self.expire_time = expire_time

根据关键词获取userid

def _get_userid(self, response): userid = [] content = json.loads(response) cards = content['data']['cards'] # 数据列表 for card in cards: if card['card_type'] != 11: # 状态=11返回的是用户数据列表 continue for card_group in card['card_group']: userid.append(card_group['user']['id']) # 用户id return userid

根据userid获取信息

def _parse_json(self, res): content = json.loads(res) data = {} data['用户id'] = content['data']['userInfo']['id'] # userid data['用户名'] = content['data']['userInfo']['screen_name'] # 用户名 # 性别 sex = content['data']['userInfo']['gender'] data['性别'] = '女' if sex == 'f' else '男' data['微博认证名称'] = content['data']['userInfo']['verified_reason'] # 微博认证名称 data['简介'] = content['data']['userInfo']['description'] # 简介 data['粉丝数量'] = content['data']['userInfo']['followers_count'] # 粉丝数量 data['发布微博量'] = content['data']['userInfo']['statuses_count'] # 发布微博量 data['关注量'] = content['data']['userInfo']['follow_count'] # 关注量 data['用户头像'] = content['data']['userInfo']['profile_image_url'] # 用户头像 data['移动端地址'] = content['data']['userInfo']['profile_url'] # 移动端地址 data['关键词'] = self.words return data

数据保存

def _save_xls(self, data): """ 保存数据 data : 字典格式必须和表头长度一样 :return: """ # 判断文件是否存在如果存在则读取然后插入新数据，不存在则创建一个新DataFrame并添加表头 file = f'{PATH}/数据/关键词-{self.words}.xlsx' Header = ['用户id', '用户名', '性别', '微博认证名称', '简介', '粉丝数量', '发布微博量', '关注量', '用户头像', '移动端地址', '关键词'] if not os.path.exists(f'{PATH}/数据'): os.mkdir(f'{PATH}/数据') if not os.path.exists(file): # 创建一个新的文件并写入表头 df = pd.DataFrame(columns=Header) else: # 读取现有文件 df_read = pd.read_excel(file) df = pd.DataFrame(df_read) # 定义一行新数据 data为一个字典 new_data = pd.DataFrame(data, index=[1]) # 自定义索引为：1 ，这里也可以不设置index # 把定义的新数据添加到原数据最后一行 ignore_index=True,表示不按原来的索引，从0开始自动递增 df = df.append(new_data, ignore_index=True) # 保存数据 sheet_name工作表名 index是否添加索引 header表头 df.to_excel(file, sheet_name=self.words, index=False, header=True)

数据：

本文仅供学习交流使用，如侵立删！

Flask接口签名sign原理与实例代码浅析

297 2022-08-28

【原创】微博关键词爬虫（所有微博原创微博）

多平台统一管理软件接口，如何实现多平台统一管理软件接口

Flask接口签名sign原理与实例代码浅析

java中的接口是类吗

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路

【原创】微博 关键词 爬虫（所有微博原创微博）

推荐文章

最近发表

热评文章

【原创】微博关键词爬虫（所有微博原创微博）