Python 爬虫 爬取腾讯VIP视频(python能做什么)

网友投稿 1789 2022-08-22


Python 爬虫 爬取腾讯VIP视频(python能做什么)

一、第三方库

requests >>> pip install requests   发送请求 访问网站

tqdm >>> pip install tqdm    进度条 模块

二、开发环境

版 本: python  3.8

编辑器:pycharm 2021.2

三、模块安装问题

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

模块安装问题:

- 如何安装python第三方模块:

- 安装失败原因:

- 失败一: pip 不是内部命令

解决方法: 设置环境变量

- 失败二: 出现大量报红 (read time out)

解决方法: 因为是网络链接超时,  需要切换镜像源

清华:install -i 模块名

- 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入

解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好

或者你pycharm里面python解释器没有设置好

四、配置pycharm里面的python解释器

1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)

3. 添加python安装路径

五、pycharm如何安装插件

1. 选择file(文件) >>> setting(设置) >>> Plugins(插件)

六、爬虫基本思路

爬视频

m3u8: 视频流格式

ts片段 网站链接 总和 m3u8 网站链接(所有的ts片段链接)

省流

mp4  访问一个网站 视频网站

解放 服务器压力

实现一个视频爬虫

分析数据来源(m3u8网站链接)

​​    发送请求 (访问网站)

2. 获取数据

3. 解析数据

七、完整代码

import requests # 发送请求import jsonimport refrom tqdm import tqdm# 伪装headers = { 'Cookie': 'tvfe_boss_uuid=bb88930a5ac8406d; appuser=C66D886E307ADD14; iip=0; _txjk_whl_uuid_aa5wayli=55a33622e35c40e987c810022a8c40c6; pgv_pvid=6990680204; ptui_loginuin=1321228067; RK=Kj3JwrkEZn; ptcz=42d9e016607f032705abd9792c4348479e6108da38fd5426d9ecaeff1088aa19; fqm_pvqid=d77fc224-90eb-4654-befc-ab7b6d275fb4; psrf_qqopenid=4F37937E43ECA9EAB02F9E89BE1860E2; psrf_qqaccess_token=2B1977379A78742A0B826B173FB09E92; wxunionid=; tmeLoginType=2; psrf_access_token_expiresAt=1664978634; psrf_qqrefresh_token=03721D80236524B49062B95719F2F8B4; psrf_qqunionid=FAEE1B5B10434CF5562642FABE749AB9; wxrefresh_token=; wxopenid=; euin=oKoAoK-ANens7z**; pac_uid=1_321228067; pgv_info=ssid=s891146992; o_cookie=3421355804; _qpsvr_localtk=0.6833337248736548; lv_play_index=94; video_omgid=1d3f8d535d23a20df3fe7382671d115b; vversion_name=8.2.95; o_minduid=AgDt7KNfzhCQXlgcV1YHh7y9HHG5zOXl; LPSJturn=49; LVINturn=0; LPHLSturn=88; LDERturn=976; LPPBturn=836; LPDFturn=942; LZTturn=36', 'Host': 'vd6.l.qq.com', 'Origin': ' 'Referer': ' 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',}# 你需要什么数据data = '{"buid":"vinfoad","vinfoparam":"charge=0&otype=ojson&defnpayver=1&spau=1&spaudio=0&spwm=1&sphls=2&host=v.qq.com&refer=v.qq.com&ehost=1. 发送请求 访问到 有m3u8链接的 网站url = '= requests.post(url=url, headers=headers, data=data)# 2. 获取数据# : 请求成功json_data = response.json()# 3. 解析数据# 字符串 eval(): 去除字符串引号的vinfo = json.loads(json_data['vinfo'])m3u8 = vinfo['vl']['vi'][0]['ul']['m3u8']m3u8 = re.sub('#E.*', '', m3u8)ts_list = m3u8.split()for ts in tqdm(ts_list): ts_url = '+ ts # 4. 保存数据 video_data = requests.get(url=ts_url).content with open('硬糖少女.mp4', mode='ab') as f: f.write(video_data)


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:学会编程,能拿高薪?别再被洗脑了!
下一篇:springcloud feign 接口指定接口服务ip方式
相关文章

 发表评论

暂时没有评论,来抢沙发吧~