Java-Python的完全对齐的tokenizer(字级别)

网友投稿 293 2022-08-24


Java-Python的完全对齐的tokenizer(字级别)

python侧:

def tokenize_to_str_list(textString): split_tokens = [] for i in range(len(textString)): split_tokens.append(textString[i]) return split_tokensdef convert_to_int_list(split_tokens): output = [] for token in split_tokens: if token in char2id: output.append(char2id[item]) return

java侧:

public String[] tokenize_to_str_list(final String textString) { int textLength = textString.length(); String[] split_tokens = new String[textLength]; for(int i=0; i < textLength; i++){ split_tokens[i]= String.valueOf(textString.charAt(i)); } return split_tokens; } public int[] convert_to_int_list(final String[] split_tokens) { int seqLen = split_tokens.length; int[] output = new int[seqLen]; int index = 0 for(int i = 0; i < seqLen; i++){ if(char2id.containsKey(split_tokens[i])){ output[index] = char2id.get(split_tokens[i]); index = index + 1; } } return output; }


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:tfidf python 中文 实例(tfidf和word2vec区别)
下一篇:Java getParameter()获取数据为空的问题
相关文章

 发表评论

暂时没有评论,来抢沙发吧~