tfidf python 中文实例（tfidf和word2vec区别）-eolink官网

tfidf python 中文实例（tfidf和word2vec区别）

from sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizerif __name__ == "__main__": corpus = ["我来到北京清华大学", # 第一个文本切词后的结果，词之间以空格隔开 "他来到了网易杭研大厦", # 第二个文本的切词结果 "小明硕士毕业与中国科学院", # 第三个文本的切词结果 "我爱北京天安门"] # 第四个文本的切词结果 def cut(sentence): return sentence.split(" ") vectorizer = CountVectorizer(analyzer="word", tokenizer=cut) # 将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i个文本下的词频 transformer = TfidfTransformer() # 统计每个词语的tf-idf权值 X = vectorizer.fit_transform(corpus) tfidf = transformer.fit_transform(X) # 第一个fit_transform是计算tf-idf，第二个fit_transform是将文本转为词频矩阵 word = vectorizer.get_feature_names() # 获取词袋模型中的所有词语 print(word) print(X.toarray()) weight = tfidf.toarray() # 将tf-idf矩阵抽取出来，元素a[i][j]表示j词在i个文本中的tf-idf权重 for i in range(len(weight)): # 打印每个文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一个文本下的词语权重 print("-------这里输出第", i, u"个文本的词语tf-idf权重------") for j in range(len(word)): print(word[j], weight[i][j])

[‘与’, ‘中国’, ‘了’, ‘他’, ‘北京’, ‘大厦’, ‘天安门’, ‘小明’, ‘我’, ‘来到’, ‘杭研’, ‘毕业’, ‘清华大学’, ‘爱’, ‘硕士’, ‘科学院’, ‘网易’] [[0 0 0 0 1 0 0 0 1 1 0 0 1 0 0 0 0] [0 0 1 1 0 1 0 0 0 1 1 0 0 0 0 0 1] [1 1 0 0 0 0 0 1 0 0 0 1 0 0 1 1 0] [0 0 0 0 1 0 1 0 1 0 0 0 0 1 0 0 0]] -------这里输出第 0 个文本的词语tf-idf权重------ 与 0.0 中国 0.0 了 0.0 他 0.0 北京 0.4658085493691629 大厦 0.0 天安门 0.0 小明 0.0 我 0.4658085493691629 来到 0.4658085493691629 杭研 0.0 毕业 0.0 清华大学 0.5908190806023349 爱 0.0 硕士 0.0 科学院 0.0 网易 0.0 -------这里输出第 1 个文本的词语tf-idf权重------ 与 0.0 中国 0.0 了 0.4217647821447532 他 0.4217647821447532 北京 0.0 大厦 0.4217647821447532 天安门 0.0 小明 0.0 我 0.0 来到 0.3325241986862672 杭研 0.4217647821447532 毕业 0.0 清华大学 0.0 爱 0.0 硕士 0.0 科学院 0.0 网易 0.4217647821447532 -------这里输出第 2 个文本的词语tf-idf权重------ 与 0.408248290463863 中国 0.408248290463863 了 0.0 他 0.0 北京 0.0 大厦 0.0 天安门 0.0 小明 0.408248290463863 我 0.0 来到 0.0 杭研 0.0 毕业 0.408248290463863 清华大学 0.0 爱 0.0 硕士 0.408248290463863 科学院 0.408248290463863 网易 0.0 -------这里输出第 3 个文本的词语tf-idf权重------ 与 0.0 中国 0.0 了 0.0 他 0.0 北京 0.43779123108611473 大厦 0.0 天安门 0.5552826649411127 小明 0.0 我 0.43779123108611473 来到 0.0 杭研 0.0 毕业 0.0 清华大学 0.0 爱 0.5552826649411127 硕士 0.0 科学院 0.0 网易 0.0

java如何实现模拟USB接口的功能

484 2022-08-24

tfidf python 中文实例（tfidf和word2vec区别）

hdml指的是什么接口

分析EBS常用接口表

java如何实现模拟USB接口的功能

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路

tfidf python 中文 实例（tfidf和word2vec区别）

微信扫一扫：分享

推荐文章

最近发表

热评文章

tfidf python 中文实例（tfidf和word2vec区别）