java实现爬取知乎用户基本信息-eolink官网

java实现爬取知乎用户基本信息

本文实例为大家分享了一个基于java的知乎爬虫，抓取知乎用户基本信息，基于HttpClient 4.5，供大家参考，具体内容如下

详细内容：

抓取90W+用户信息（基本上活跃的用户都在http://里面）

大致思路：

1.首先模拟登录知乎，登录成功后将Cookie序列化到磁盘，不用以后每次都登录（如果不模拟登录，可以直接从浏览器塞入Cookie也是可以的）。

2.创建两个线程池和一个Storage。一个抓取网页线程池，负责执行request请求，并返回网页内容，存到Storage中。另一个是解析网页线程池，负责从Storage中取出网页内容并解析，解析用户资料存入数据库，解析该用户关注的人的首页，将该地址请求又加入抓取网页线程池。一直循环下去。

3.关于url去重，我是直接将访问过的链接md5化后存入数据库，每次访问前，查看数据库中是否存在该链接。

到目前为止，抓了100W用户了，访问过的链接220W+。现在抓取的用户都是一些不太活跃的用户了。比较活跃的用户应该基本上也抓完了。

项目地址：https://github.com/wycm/mycrawler

实现代码：

效果图：

以上就是本文的全部内容，希望对大家的学习有所帮助。

212 2023-07-16

java实现爬取知乎用户基本信息