zookeeper python接口实例详解
689
2022-08-22
Python 爬虫 爬取A站视频(python是什么意思)
一、环境使用
Python 3.8
Pycharm
二、模块使用
import requests >>> pip install requests
内置模块 你安装好python环境就可以了
import re
import json
三、模块安装问题
win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)
模块安装问题:
- 如何安装python第三方模块:
- 安装失败原因:
- 失败一: pip 不是内部命令
解决方法: 设置环境变量
- 失败二: 出现大量报红 (read time out)
解决方法: 因为是网络链接超时, 需要切换镜像源
清华:install -i 模块名
- 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入
解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好
或者你pycharm里面python解释器没有设置好
四、配置pycharm里面的python解释器
1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
3. 添加python安装路径
五、pycharm如何安装插件
1. 选择file(文件) >>> setting(设置) >>> Plugins(插件)
六、爬虫基本流程思路: <通用 绿色视频网站>
爬虫是什么?
采集网页上面数据程序, 模拟浏览器对于url地址发送请求 获取服务器响应数据
采集一个视频, 然后再采集多个视频, 最后采集多页
(1). 数据来源分析
1. 确定自己需求, 采集那个网站什么数据内容
2. 通过开发者工具进行抓包分析, 分析我们想要视频内容以及视频标题来自于哪里
A站这个网站视频内容, m3u8视频格式
m3u8视频格式 ---> 了解 1 不知道 2
正常是一个视频内容 完整数据 ---> 2分18秒
m3u8视频格式 ---> 会把完整视频内容 分割成非常多个小片段 (ts文件)
一个小片段 可能是5-10秒钟时间
所有视频片段
m3u8视频内容, 你看10秒钟 他就给加载10秒钟的数据
通过分析, 视频内容 ---> ts文件 分片段 ---> m3u8文件链接 --> 网页源代码里
(2). 代码实现步骤: 发送请求 获取数据 解析数据 保存数据
1. 发送请求, 对于视频播放页url地址发送请求
2. 获取数据, 网页源代码
3. 解析数据, 提取我们想要 m3u8链接地址 以及 视频标题
4. 发送请求, 对于m3u8链接地址发送请求
5. 获取数据, 获取服务器返回数据内容
6. 解析数据, 提取所有ts文件链接
7. 保存数据, <发送请求获取数据> 保存成一个完整视频内容
1. 特殊字符
2. 你保存数据之后 播放有问题 视频内容播放
七、完整代码
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~