初识人工智能(二):机器学习(一):sklearn特征抽取（sklearn特征筛选）-eolink官网

初识人工智能(二):机器学习(一):sklearn特征抽取（sklearn特征筛选）

阅读目录(Content)

1. sklearn特征抽取

1.1 安装sklearn

1.2 特征抽取

1.3 字典特征抽取

1.4 文本特征抽取

1.5 TF-IDF

回到顶部(go to top)

1. sklearn特征抽取

1.1 安装sklearn

pip install Scikit-learn -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

没有报错，导入命令查看是否可用：

import sklearn

注：安装scikit-learn需要Numpy,pandas等库。

1.2 特征抽取

例子：

# 特征抽取

# 导入包

from sklearn.feature_extraction.text import CountVectorizer

# 实例化CountVectorizer

vector = CountVectorizer()

# 调用fit_transform输入并转换数据

res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])

# 打印结果

print(vector.get_feature_names())

print(res.toarray())

运行结果：

通过例子我们可以得出结论，特征抽取对文本等数据进行特征值化。

1.3 字典特征抽取

作用：对字典数据进行特征值化。

类：sklearn.feature_extraction.DictVectorizer

DictVectorizer语法：

DictVectorizer(sparse=True,…)

DictVectorizer.fit_transform(X)

　　X:字典或者包含字典的迭代器

　　返回值：返回sparse矩阵

DictVectorizer.inverse_transform(X)

　　X:array数组或者sparse矩阵

　　返回值:转换之前数据格式

DictVectorizer.get_feature_names()

　　返回类别名称

DictVectorizer.transform(X)

　　按照原先的标准转换

from sklearn.feature_extraction import DictVectorizer

def dictvec():

"""

字典数据抽取

:return: None

"""

# 实例化

dict = DictVectorizer()

# 调用fit_transform

data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])

print(dict.get_feature_names())

print(dict.inverse_transform(data))

print(data)

return None

if __name__ == "__main__":

dictvec()

运行结果：

修改属性，让数据更直观。

from sklearn.feature_extraction import DictVectorizer

def dictvec():

"""

字典数据抽取

:return: None

"""

# 实例化

dict = DictVectorizer(sparse=False)

# 调用fit_transform

data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])

print(dict.get_feature_names())

print(dict.inverse_transform(data))

print(data)

return None

if __name__ == "__main__":

dictvec()

运行结果：

1.4 文本特征抽取

作用：对文本数据进行特征值化。

类：sklearn.feature_extraction.text.CountVectorizer

CountVectorizer语法：

CountVectorizer(max_df=1.0,min_df=1,…)

返回词频矩阵

CountVectorizer.fit_transform(X,y)

　　X:文本或者包含文本字符串的可迭代对象

　　返回值：返回sparse矩阵

CountVectorizer.inverse_transform(X)

　　X:array数组或者sparse矩阵

　　返回值:转换之前数据格式

CountVectorizer.get_feature_names()

　　返回值:单词列表

from sklearn.feature_extraction.text import CountVectorizer

def countvec():

"""

对文本进行特征值化

:return: None

"""

cv = CountVectorizer()

data = cv.fit_transform(["人生苦短，我喜欢 python", "人生漫长，不用 python"])

print(cv.get_feature_names())

print(data.toarray())

return None

Spring中的aware接口详情

322 2022-06-26

初识人工智能(二):机器学习(一):sklearn特征抽取（sklearn特征筛选）

java中的接口是类吗

Spring中的aware接口详情

C#如何实现接口base调用

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路

初识人工智能(二):机器学习(一):sklearn特征抽取（sklearn特征筛选）

微信扫一扫：分享

推荐文章

最近发表

热评文章