java中的接口是类吗
358
2023-04-11
Solr通过特殊字符分词实现自定义分词器详解
前言
我们在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。感觉这种需求可能与WhiteSpaceTokenizerFactory相像,于是自己根据Solr源码自定义了分词策略。
业务场景
有一次,我拿到的数据都是以竖线“|”分隔,分词的时候,需要以竖线为分词单元。比如下面的这一堆数据:
有可能你拿到的是这样的数据,典型的例子就是来自csv文件的数据,格式和http://下面这种类似:
分词思路
在Solr的schema.xml文件中,有这样的配置
对于字段类型text_ws,指定了一个分词器工厂WhitespaceTokenizerFactory,根据这个类,可以实现通过空格来分词,那么我通过竖线分词的代码应该与之类似。
修改源码
在java工程中引入如下jar包:
参http://照WhitespaceTokenizerFactory的源码,写一个自己的MyVerticalLineTokenizerFactory,内容基本不变:
package com.trainning.project.custom;
import java.util.Arrays;
import java.util.Collection;
import java.util.Map;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;
/**
* @author JiangChao
* @date 2017年4月2日下午3:41:13
*/
public class MyVerticalLineTokenizerFactory extends TokenizerFactory{
public static final String RULE_JAVA = "java";
public static final String RULE_UNICODE = "unicode";
private static final Collection
private final String rule;
/** Creates a new MyVerticalLineTokenizerFactory */
public MyVerticalLineTokenizerFactory(Map
super(args);
rule = get(args, "rule", RULE_NAMES, RULE_JAVA);
if (!args.isEmpty()) {
throw new IllegalArgumentException("Unknown parameters: " + args);
}
}
@Override
public Tokenizer create(AttributeFactory factory) {
switch (rule) {
case RULE_JAVA:
return new MyVerticalLineTokenizer(factory);
case RULE_UNICODE:
return new UnicodeWhitespaceTokenizer(factory);
default:
throw new AssertionError();
}
}
}
具体做分词的MyVerticalLineTokenizer代码如下
package com.trainning.project.custom;
import org.apache.lucene.analysis.util.CharTokenizer;
import org.apache.lucene.util.AttributeFactory;
/**
* @author JiangChao
* @date 2017年4月2日下午9:46:18
*/
public class MyVerticalLinebmKxGETokenizer extends CharTokenizer {
public MyVerticalLineTokenizer() {
}
public MyVerticalLineTokenizer(AttributeFactory factory) {
super(factory);
}
/** Collects only characters which do not satisfy
* 参数c指的是term的ASCII值,竖线的值为 124
*/
@Override
protected boolean isTokenChar(int c) {
return !(c == 124);
}
}
这里最主要的方法就是isTokenChar,它控制了分词的字符,如果需要使用逗号分词的话,字需要将这个方法修改成下面这样:
/** Collects only characters which do not satisfy
* 参数c指的是term的ASCII值,逗号的值为 44
*/
@Override
protected boolean isTokenChar(int c) {
return !(c == 44);
}
整合
代码写好了,怎么使用呢?首先,需要把刚才的java文件打成jar包。我使用的是Eclipse,直接选中两个类文件,右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径,填一个jar名字:MyVerticalLineTokenizerFactory -> Finish
得到的MyVerticalLineTokenizerFactory.jar文件大约3KB,将改文件放置到.\solr_home\lib下,在shcema.xml中定义自己的field
注意这里的class是刚才自己写的分词器的完整类名。
打开Solr主页,在Analysis页面测试一下,是否实现了预期?
源码下载:
github:下载地址
本地下载:链接地址
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对我们的支持。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~