Solr通过特殊字符分词实现自定义分词器详解-eolink官网

Solr通过特殊字符分词实现自定义分词器详解

前言

我们在对英文句子分词的时候，一般采用采用的分词器是WhiteSpaceTokenizerFactory，有一次因业务要求，需要根据某一个特殊字符（以逗号分词，以竖线分词）分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像，于是自己根据Solr源码自定义了分词策略。

业务场景

有一次，我拿到的数据都是以竖线“|”分隔，分词的时候，需要以竖线为分词单元。比如下面的这一堆数据：

有可能你拿到的是这样的数据，典型的例子就是来自csv文件的数据，格式和http://下面这种类似：

分词思路

在Solr的schema.xml文件中，有这样的配置

对于字段类型text_ws，指定了一个分词器工厂WhitespaceTokenizerFactory，根据这个类，可以实现通过空格来分词，那么我通过竖线分词的代码应该与之类似。

修改源码

在java工程中引入如下jar包：

org.apache.solr

solr-core

6.0.0

参http://照WhitespaceTokenizerFactory的源码，写一个自己的MyVerticalLineTokenizerFactory，内容基本不变：

package com.trainning.project.custom;

import java.util.Arrays;

import java.util.Collection;

import java.util.Map;

import org.apache.lucene.analysis.Tokenizer;

import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;

import org.apache.lucene.analysis.util.TokenizerFactory;

import org.apache.lucene.util.AttributeFactory;

/**

* @author JiangChao

* @date 2017年4月2日下午3:41:13

public class MyVerticalLineTokenizerFactory extends TokenizerFactory{

public static final String RULE_JAVA = "java";

public static final String RULE_UNICODE = "unicode";

private static final Collection RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE);

private final String rule;

/** Creates a new MyVerticalLineTokenizerFactory */

public MyVerticalLineTokenizerFactory(Map args) {

super(args);

rule = get(args, "rule", RULE_NAMES, RULE_JAVA);

if (!args.isEmpty()) {

throw new IllegalArgumentException("Unknown parameters: " + args);

}

@Override

public Tokenizer create(AttributeFactory factory) {

switch (rule) {

case RULE_JAVA:

return new MyVerticalLineTokenizer(factory);

case RULE_UNICODE:

return new UnicodeWhitespaceTokenizer(factory);

default:

throw new AssertionError();

}

具体做分词的MyVerticalLineTokenizer代码如下

package com.trainning.project.custom;

import org.apache.lucene.analysis.util.CharTokenizer;

import org.apache.lucene.util.AttributeFactory;

/**

* @author JiangChao

* @date 2017年4月2日下午9:46:18

public class MyVerticalLinebmKxGETokenizer extends CharTokenizer {

public MyVerticalLineTokenizer() {

}

public MyVerticalLineTokenizer(AttributeFactory factory) {

super(factory);

}

/** Collects only characters which do not satisfy

* 参数c指的是term的ASCII值，竖线的值为 124

@Override

protected boolean isTokenChar(int c) {

return !(c == 124);

}

这里最主要的方法就是isTokenChar，它控制了分词的字符，如果需要使用逗号分词的话，字需要将这个方法修改成下面这样：

/** Collects only characters which do not satisfy

* 参数c指的是term的ASCII值，逗号的值为 44

@Override

protected boolean isTokenChar(int c) {

return !(c == 44);

}

整合

代码写好了，怎么使用呢？首先，需要把刚才的java文件打成jar包。我使用的是Eclipse，直接选中两个类文件，右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径，填一个jar名字：MyVerticalLineTokenizerFactory -> Finish

得到的MyVerticalLineTokenizerFactory.jar文件大约3KB，将改文件放置到.\solr_home\lib下，在shcema.xml中定义自己的field

注意这里的class是刚才自己写的分词器的完整类名。

打开Solr主页，在Analysis页面测试一下，是否实现了预期？

源码下载：

github：下载地址

本地下载：链接地址

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对我们的支持。

Iterator与LIstIterator接口在java中的区别有哪些

407 2023-04-11

Solr通过特殊字符分词实现自定义分词器详解

java中的接口是类吗

vue项目接口域名动态的获取方法

Iterator与LIstIterator接口在java中的区别有哪些

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路

Solr通过特殊字符分词实现自定义分词器详解

微信扫一扫：分享

推荐文章

最近发表

热评文章