【原创】微博 关键词 爬虫(所有微博原创微博)

网友投稿 297 2022-08-28


【原创】微博 关键词 爬虫(所有微博原创微博)

本文所有教程及源码、软件仅为技术研究。不涉及计算机信息系统功能的删除、修改、增加、干扰,更不会影响计算机信息系统的正常运行。不得将代码用于非法用途,如侵立删!

记一次阿里云盾滑块验证分析并通过

操作环境

win10 、 mac Python3.9

数据接口

搜索 https://**********?containerid=100103type%3D{chanenl}%26q%3D{quote(self.words)}&page_type=searchall&page={page} user info https://**********?title=%E5%9F%BA%E6%9C%AC%E8%B5%84%E6%96%99&value={userid}' proxy配置

==使用socks需安装 :pip install -U 'requests[socks]'==

def _proxy(self): """ 调用 :return: """ # 判断IP是否过期 new_time = datetime.datetime.now() if self.expire_time and new_time < datetime.datetime.strptime(self.expire_time, "%Y-%m-%d %H:%M:%S"): # # 当前时间小于到期时间证明可用 # if new_time < datetime.datetime.strptime(self.expire_time, "%Y-%m-%d %H:%M:%S"): print(f'当前使用IP:{self.proxies} 过期时间:{self.expire_time}') return proxy = Proxy() ip_port, expire_time = proxy.main() self.headers = proxy.headers self.proxies = { ''socks5://{}'.format(ip_port), ''socks5://{}'.format(ip_port) } self.expire_time = expire_time

根据关键词获取userid

def _get_userid(self, response): userid = [] content = json.loads(response) cards = content['data']['cards'] # 数据列表 for card in cards: if card['card_type'] != 11: # 状态=11返回的是用户数据列表 continue for card_group in card['card_group']: userid.append(card_group['user']['id']) # 用户id return userid

根据userid获取信息

def _parse_json(self, res): content = json.loads(res) data = {} data['用户id'] = content['data']['userInfo']['id'] # userid data['用户名'] = content['data']['userInfo']['screen_name'] # 用户名 # 性别 sex = content['data']['userInfo']['gender'] data['性别'] = '女' if sex == 'f' else '男' data['微博认证名称'] = content['data']['userInfo']['verified_reason'] # 微博认证名称 data['简介'] = content['data']['userInfo']['description'] # 简介 data['粉丝数量'] = content['data']['userInfo']['followers_count'] # 粉丝数量 data['发布微博量'] = content['data']['userInfo']['statuses_count'] # 发布微博量 data['关注量'] = content['data']['userInfo']['follow_count'] # 关注量 data['用户头像'] = content['data']['userInfo']['profile_image_url'] # 用户头像 data['移动端地址'] = content['data']['userInfo']['profile_url'] # 移动端地址 data['关键词'] = self.words return data

数据保存

def _save_xls(self, data): """ 保存数据 data : 字典格式 必须和表头长度一样 :return: """ # 判断文件是否存在 如果存在则读取然后插入新数据,不存在则创建一个新DataFrame并添加表头 file = f'{PATH}/数据/关键词-{self.words}.xlsx' Header = ['用户id', '用户名', '性别', '微博认证名称', '简介', '粉丝数量', '发布微博量', '关注量', '用户头像', '移动端地址', '关键词'] if not os.path.exists(f'{PATH}/数据'): os.mkdir(f'{PATH}/数据') if not os.path.exists(file): # 创建一个新的文件 并写入表头 df = pd.DataFrame(columns=Header) else: # 读取现有文件 df_read = pd.read_excel(file) df = pd.DataFrame(df_read) # 定义一行新数据 data为一个字典 new_data = pd.DataFrame(data, index=[1]) # 自定义索引为:1 ,这里也可以不设置index # 把定义的新数据添加到原数据最后一行 ignore_index=True,表示不按原来的索引,从0开始自动递增 df = df.append(new_data, ignore_index=True) # 保存数据 sheet_name工作表名 index是否添加索引 header表头 df.to_excel(file, sheet_name=self.words, index=False, header=True)

数据:

本文仅供学习交流使用,如侵立删!


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Python之数字(Number)(关于Python的数字类型)
下一篇:Java 入门图形用户界面设计之单选按钮
相关文章

 发表评论

暂时没有评论,来抢沙发吧~