Python 爬虫 爬取A站视频(python是什么意思)

网友投稿 627 2022-08-22


Python 爬虫 爬取A站视频(python是什么意思)

一、环境使用

Python 3.8

Pycharm

二、模块使用

import requests >>> pip install requests

内置模块 你安装好python环境就可以了

import re

import json

三、模块安装问题

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

模块安装问题:

- 如何安装python第三方模块:

- 安装失败原因:

- 失败一: pip 不是内部命令

解决方法: 设置环境变量

- 失败二: 出现大量报红 (read time out)

解决方法: 因为是网络链接超时,  需要切换镜像源

清华:install -i 模块名

- 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入

解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好

或者你pycharm里面python解释器没有设置好

四、配置pycharm里面的python解释器

1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)

3. 添加python安装路径

五、pycharm如何安装插件

1. 选择file(文件) >>> setting(设置) >>> Plugins(插件)

六、爬虫基本流程思路: <通用 绿色视频网站>

爬虫是什么?

采集网页上面数据程序, 模拟浏览器对于url地址发送请求 获取服务器响应数据

采集一个视频, 然后再采集多个视频, 最后采集多页

(1). 数据来源分析

1. 确定自己需求, 采集那个网站什么数据内容

2. 通过开发者工具进行抓包分析, 分析我们想要视频内容以及视频标题来自于哪里

A站这个网站视频内容, m3u8视频格式

m3u8视频格式 ---> 了解 1  不知道 2

正常是一个视频内容 完整数据 --->  2分18秒

m3u8视频格式 ---> 会把完整视频内容 分割成非常多个小片段 (ts文件)

一个小片段 可能是5-10秒钟时间

所有视频片段 都保存在一个m3u8文件里面

m3u8视频内容, 你看10秒钟 他就给加载10秒钟的数据

通过分析, 视频内容 ---> ts文件 分片段 ---> m3u8文件链接  --> 网页源代码里

(2). 代码实现步骤: 发送请求 获取数据 解析数据 保存数据

1. 发送请求, 对于视频播放页url地址发送请求

2. 获取数据, 网页源代码

3. 解析数据, 提取我们想要 m3u8链接地址 以及 视频标题

4. 发送请求, 对于m3u8链接地址发送请求

5. 获取数据, 获取服务器返回数据内容

6. 解析数据, 提取所有ts文件链接

7. 保存数据, <发送请求获取数据> 保存成一个完整视频内容

1. 特殊字符

2. 你保存数据之后 播放有问题  视频内容播放

七、完整代码


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Java Spring注解之@Async的基本用法和示例
下一篇:Python 爬虫 采集王者荣耀英雄皮肤(python代码大全)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~