Python 爬虫 爬取斗鱼视频(python入门教程(非常详细))

网友投稿 461 2022-08-22


Python 爬虫 爬取斗鱼视频(python入门教程(非常详细))

一、模块使用

requests >>> pip install requests   re

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

二、模块安装问题:

- 失败二: 出现大量报红 (read time out)             解决方法: 因为是网络链接超时,  需要切换镜像源                 清华:https://pypi.tuna.tsinghua.edu.cn/simple                 阿里云:https://mirrors.aliyun.com/pypi/simple/                 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/                 华中理工大学:https://pypi.hustunique.com/                 山东理工大学:https://pypi.sdutlinux.org/                 豆瓣:https://pypi.douban.com/simple/                 例如:pip3 install -i 模块名

- 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入             解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好                     或者你pycharm里面python解释器没有设置好

三、如何配置pycharm里面的python解释器

四、pycharm如何安装插件

五、爬虫基本流程

(1). 数据来源分析 <重要...>     1. 要分析自己想要数据内容, 可以请求那个url地址得到相应数据         开发者 不会2  会用1         1. F12打开开发者工具, 刷新网页         2. 通过关键字搜索, 找寻数据包

(2). 代码实现步骤过程     1. 发送请求, 模拟浏览器对于url地址发送get请求     2. 获取数据, 获取服务器返回响应数据 ---> 开发者工具里面response     3. 解析数据, 提取我们想要数据内容     4. 保存数据, 把数据保存为mp4

六、完整代码

import requestsimport reurl = '= { 'v': '220320220627', 'did': '10000000000000000000000000001501', 'tt': '1656318502', 'sign': 'f0194e25c25283cbd53ef52c0acf45f8', 'vid': 'kDe0W29DOwaMA4Bz',}headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'}response = requests.post(url=url, data=data, headers=headers)print(response.json())m3u8_url = response.json()['data']['thumb_video']['high']['url']print(m3u8_url)m3u8_data = requests.get(url=m3u8_url, headers=headers).textm3u8_data = re.sub('#E.*', '', m3u8_data).split()for ts in m3u8_data: ts_url = '+ ts ts_content = requests.get(url=ts_url, headers=headers).content with open('【奶优米呀】05-07 本场人气值TOP2舞蹈.mp4', mode='ab') as f: f.write(ts_content) print(ts_url)


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Python中容易忽略的四个小知识点(python总结知识点)
下一篇:Java RabbitMQ的工作队列与消息应答详解
相关文章

 发表评论

暂时没有评论,来抢沙发吧~