Java应用开源框架实现简易web搜索引擎-eolink官网

Java应用开源框架实现简易web搜索引擎

引言

应用 java 的开源库，编写一个搜索引擎，这个引擎能爬取一个网站的内容。并根据网页内容进行深度爬取，获取所有相关的网页地址和内容，用户可以通过关键词，搜索所有相关的网址。

具体功能

(1) 用户可以指定爬取一个url对应的网页的内容。

(2) 对网页内容进行解析，并获取其中所有的url链接地址。

(3) 用户可以设定爬取深度，代表着从初始url对应的页面开始，可以爬取其中所有的url对应的网页内的url，以此类推。深度越大，能爬取到的网站越多。

(4) 对爬取到的url内容进行保存、建立索引。建立索引的内容是url地址本身，和url对应的网页标题。

(5) 用户可以通过关键词对网址进行搜索，找出有该关键词的url地址。

(6) 建立索引和搜索索引的过程能智能识别中文关键词，能对关键词进行分词操作。

(7) 用户可以指定保存索引的地址、初始url、爬取深度、进行搜索的关键词和最大匹配项。

开源框架

Lucene

jsoup

源码

爬虫部分：Spider.java

package webCrawler.Spider;

import java.io.IOException;

import java.util.ArrayList;

import java.util.HashSet;

import java.util.Scanner;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import webCrawler.Index.BuildIndex;

/**

* @author lannooo

public class Spider {

ArrayList URLs;

private String startURL;

private int digLevel;

/**

* @param startURL 爬虫的起始URL

* @param digLevel 爬取深度

public Spider(String startURL, int digLevel){

this.startURL = startURL;

this.digLevel = digLevel;

this.URLs = new ArrayList<>();

}

/**

* @param level 当前爬取的深度剩余

* @param arrayList 需要进行下一轮爬去的URL集

* @return 从一格url集爬取到的新的URL集

* @throws IOException

public ArrayList getLevelURLs(int level, ArrayList arrayList)

throws IOException{

ArrayList total = null;

if(level>0){

total = new ArrayList<>();

for(String url: arrayList){

/*对于每个arrayList中的URL，首先解析其网页内容，并获得里面所有URL项*/

for(String each: getBareLinks(url)){

total.add(each);

}

/*用HashSet这个容器将total里面重复项删除*/

HashSet hashSet = new HashSet<>(total);

total = new ArrayList<>(hashSet);

}

return total;

}

/**

* 从startURL开始，爬取所有相关URLs

* @throws IOException

public void getAll() throws IOException{

ArrayList newURLs;

ArrayList currentURLs = new ArrayList<>();

/*把startURL加入currentURLs这个列表中，从这个url开始爬*/

currentURLs.add(startURL);

for(int i=digLevel; i>0; i--){

* 对于每一层，都要获取一次由这个url引申出去的url集

* 然后把当前集的已经爬去过的url加入到总的URL集中

* 最后newURLs作为新的需要进行深度爬取的集进入下一轮循环

System.out.println("Dig into level: " + (digLevel-i+1));

newURLs = getLevelURLs(i, currentURLs);

for(String each: currentURLs){

URLs.add(each);

}

currentURLs = newURLs;

}

for(String each:currentURLs){

URLs.add(each);

}

HashSet hashSet = new HashSet<>(URLs);

URLs = new ArrayList<>(hashSet);

}

/**

* @param path 保存索引的路径

* @throws IOException

public void storeURLsAndInfo(String path) throws IOException{

BuildIndex build = new BuildIndex(path);

/* 把URLs中的所有url进行实际网页标题的爬取*/

for(String each:URLs){

String text = getLinkText(each);

if(text!=null){

build.addField("url", each);

build.addField("text", text);

/*将这一个entry加入索引中*/

build.pushIndex();

}

build.close();

}

/**

* @param url 需要获取网页标题的url

* @return 标题内容

* @throws IOException

public String getLinkText(String url) throws IOException{

Document document = null;

try {

/*用Jsoup进行连接，设置超时时间为3秒*/

document = Jsoup.connect(url).timeout(3000).get();

} catch (Exception e) {

System.out.println("[TIMEOUT]Get title of url:"+url);

return null;

}

String title = document.title();

return title;

}

/**

* @param url 进行内容解析的url

* @return 返回该url的网页内容内的所有urls列表

* @throws IOException

public ArrayList getBareLinks(String url) throws IOException{

ArrayList linksList = new ArrayList<>();

Document document;

try {

document = Jsoup.connect(url).timeout(2000).get();

} catch (Exception e) {

return linksList;

}

/*获取

Elements links = document.select("body").select("a[href]");

for(Element link: links){

/*从每一个解析得到的标签中提取url，并去除锚点*/

String href = link.attr("abs:href").replaceAll("#", "");

/*只添加含有zju.edu.cn字符的url，去除末尾的'/'*/

if(href.contains("zju.edu.cn")){

if (href.endsWith("/")){

href = href.substring(0, href.length()-1);

}

linksList.add(href);

}

HashSet hashSet = new HashSet<>(linksList);

ArrayList arrayList = new ArrayList<>(hashSet);

return arrayList;

}

public static void main(String[] args) {

Scanner in = new Scanner(System.in);

System.out.println("Enter url:");

String url = in.nextLine().trim();

while(!url.startsWith("http://")){

System.out.println("http:// is needed!");

System.out.println("Enter url:");

url = in.nextLine().trim();

}

System.out.println("Enter depth to dig more urls[<=3 recommended]：");

int depth = in.nextInt();

Spider spider = new Spider(url, depth);

System.out.println("Enter path you want to save[default=d:/index-spider]:");

String path = in.nextLine().trim();

if(path.length()==0){

path = "d:/index-spider";

}

try {

System.out.println("Start fetching...");

spider.getAll();

System.out.println("Urls got success!");

spider.storeURLsAndInfo(path);

System.out.println("Stored success!");

} catch (IOException e) {

e.printStackTrace();

}

建立索引：BuildIndex.java

package webCrawler.Index;

import java.io.*;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.document.TextField;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.util.Version;

import org.wltea.analyzer.lucene.IKAnalyzer;

/**

* @author lannooo

public class BuildIndex {

private File file;

private Directory directory;

private IndexWriter indexWriter;

private IndexWriterConfig config;

private Analyzer analyzer;

private Document document;

/**

* @param path 建立索引的路径

public BuildIndex(String path) {

try {

file = new File(path);

directory = FSDirectory.open(file);

document = new Document();

analyzer = new IKAnalyzer(); /*中文分词工具类*/

config = new IndexWriterConfig(Version.LUCENE_4_10_0, analyzer);

indexWriter = new IndexWriter(directory, config);

} catch (Exception e) {

e.printStackTrace();

}

/**

* @param fieldName 加入到document中的新的一项的名称

* @param fieldText 新的一项的内容

public void addField(String fieldName, String fieldText){

try{

Field field = new TextField(fieldName, fieldText, Field.Store.YES);

document.add(field);

}catch (Exception e) {

e.printStackTrace();

}

/**

* 将document加入到索引中

public void pushIndex(){

try {

indexWriter.addDocument(document);

document = new Document();

} catch (Exception e) {

e.printStackTrace();

}

/**

* 加入完整的一个document并保存到索引中

* @param url 加入的url地址

* @param text url对应的文本

public void addOneIndex(String url, String text){

this.addField("url", url);

this.addField("text", text);

this.pushIndex();

}

/**

* 关闭索引写入

public void close(){

try {

indexWriter.close();

} catch (Exception e) {

e.printStackTrace();

}

搜索索引

package webCrawler.Index;

import java.io.File;

import java.util.Scanner;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.index.DirectoryReader;

import org.apache.lucene.queryparser.classic.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.store.FSDirectory;

import org.wltea.analyzer.lucene.IKAnalyzer;

/**

* @author lannooo

public class SearchIndex {

private IndexSearcher indexSearcher;

private Analyzer analyzer;

private QueryParser parser;

private Query query;

private TopDocs hits;

private DirectoryReader reader;

/**

* @param path 进行索引搜索的路径

public SearchIndex(String path){

try {

reader = DirectoryReader.open(FSDirectory.open(new File(path)));

indexSearcher = new IndexSearcher(reader);

analyzer = new IKAnalyzer();

} catch (Exception e) {

e.printStackTrace();

}

/**

* @param fieldName 搜索的域名称

* @param text 搜索的内容

* @param matchNumber 最大匹配项数

* @return 搜索到的最大匹配数

public int search(String fieldName, String text, int matchNumber){

try {

parser = new QueryParser(fieldName, analyzer);

query = parser.parse(text);

hits = indexSearcher.search(query, matchNumber);

return hits.totalHits;

} catch (Exception e) {

e.printStackTrace();

}

return -1;

}

/**

* 打印所有的匹配项

public void printHits(){

try{

System.out.println("Total hits number:"+hits.totalHits);

for(ScoreDoc doc: hits.scoreDocs){

Document document = indexSearcher.doc(doc.doc);

System.out.println(document.http://get("url"));

System.out.println(document.get("text"));

}

reader.close();

}catch (Exception e) {

e.printStackTrace();

}

public static void main(String[] args) {

/*输入关键词*/

Scanner in = new Scanner(System.in);

System.out.println("Enter path of the index:");

String path = in.nextLine().trim();

while(path.length()==0){

System.out.println("Enter path of the index:");

path = in.nextLine().trim();

}

System.out.println("Enter max hit number:");

int max = in.nextInt();

while(max<0){

System.out.println("Enter max hit number:");

max = in.nextInt();

}

in.nextLine();

System.out.print("Search>>> ");

String text = in.nextLine().trim();

/*循环读入用户的关键词，如果是q则退出，长度为0也退出*/

while(!text.equals("q")){

if(text.length()>0){

SearchIndex search = new SearchIndex(path);

int hits = search.search("text", text, max);

if(hits!=-1){

search.printHits();

}

System.out.print("Search>>> ");

text = in.nextLine().trim();

}

UI界面（这里为了方便只是命令行的形式，可以根据需求写一个GUI界面）

package webCrawler.UI;

import java.util.Scanner;

import webCrawler.Index.SearchIndex;

/**

* @author lannooo

public class UI {

public static void main(String[] args) {

/*输入关键词*/

Scanner in = new Scanner(System.in);

System.out.print("Search>>> ");

String text = in.nextLine().trim();

/*对于用户的关键词，如果是q则退出，长度为0也退出*/

while(!text.equals("q") && text.length()>0){

SearchIndex search = new SearchIndex("d:/index-spider2");

int hits = search.search("text", text, 20);

if(hits!=-1){

search.printHits();

}

System.out.print("Search>>> ");

text = in.nextLine().trim();

}

Iterator与LIstIterator接口在java中的区别有哪些

437 2023-03-10

Java应用开源框架实现简易web搜索引擎

多平台统一管理软件接口，如何实现多平台统一管理软件接口

Iterator与LIstIterator接口在java中的区别有哪些

java 单机接口限流处理方案

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路

Java应用开源框架实现简易web搜索引擎

微信扫一扫：分享

推荐文章

最近发表

热评文章