网络爬虫案例解析-eolink官网

网络爬虫案例解析

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常被称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径，网站针对搜索引擎爬虫的优化曾风靡一时。

网络爬虫的基本工作流程如下：

1.首先选取一部分精心挑选的种子URL；

2.将这些URL放入待抓取URL队列；

3.从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。

当然，上面说的那些我都不懂，以我现在的理解，我们请求一个网址，服务器返回给我们一个超级大文本，而我们的浏览器可以将这个超级大文本解析成我们说看到的华丽的页面

那么，我们只需要把这个超级大文本看成一个足够大的String 字符串就OK了。

下面是我的代码

package main.spider;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import java.io.IOException;

/**

* Created by 1755790963 on 2017/3/10.

public class Second {

public static void main(String[] args) throws IOException {

System.out.println("begin");

Document document = Jsoup.connect("http://tieba.baidu.com/p/2356694991").get();

String selector="div[class=d_post_content j_d_post_http://content clearfix]";

Elements elements = document.select(selector);

for (Element element:elements){

String word= element.text();

if(word.indexOf("@")>0){

word=word.substring(0,word.lastIndexOf("@")+7);

System.out.println(word);

}

System.out.println(word);

}

我在这里使用了apache公司所提供的jsoup jar包，jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，css以及类似于jquery的操作方法来取出和操作数据。

在代码里，我们可以直接使用Jsoup类，并.出Jsoup的connect()方法，这个方法http://返回一个org.jsoup.Connection对象，参数则是网站的url地址，Connection对象有一个get()方法返回Document对象

document对象的select方法可以返回一个Elements对象，而Elements对象正式Element对象的集合，但select()方法需要我们传入一个String参数，这个参数就是我们的选择器

String selector="div[class=d_post_content j_d_post_content clearfix]";

我们的选择器语法类似于jquery的选择器语法，可以选取html页面中的元素，选择好后，就可以便利Elements集合，通过Element的text()方法获取html中的代码

这样，一个最简单的网络爬虫就写完了。

我选择的网址是豆瓣网，留下你的邮箱，我会给你发邮件这样一个百度贴吧，我扒的是所有人的邮箱地址

附上结果：

Iterator与LIstIterator接口在java中的区别有哪些

209 2023-06-03

网络爬虫案例解析

Iterator与LIstIterator接口在java中的区别有哪些

hdml指的是什么接口

java 单机接口限流处理方案

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路