初识人工智能(二):机器学习(一):sklearn特征抽取(sklearn特征筛选)

网友投稿 298 2022-06-26


阅读目录(Content)

1. sklearn特征抽取

1.1 安装sklearn

1.2 特征抽取

1.3 字典特征抽取

 1.4 文本特征抽取

1.5 TF-IDF

回到顶部(go to top)

1. sklearn特征抽取

1.1 安装sklearn

pip install Scikit-learn -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

没有报错,导入命令查看是否可用:

import sklearn

注:安装scikit-learn需要Numpy,pandas等库。

1.2 特征抽取

例子:

# 特征抽取

 

# 导入包

from sklearn.feature_extraction.text import CountVectorizer

 

# 实例化CountVectorizer

vector = CountVectorizer()

 

# 调用fit_transform输入并转换数据

res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])

 

# 打印结果

print(vector.get_feature_names())

 

print(res.toarray())

运行结果:

通过例子我们可以得出结论,特征抽取对文本等数据进行特征值化。

1.3 字典特征抽取

作用:对字典数据进行特征值化。

类:sklearn.feature_extraction.DictVectorizer

DictVectorizer语法:

DictVectorizer(sparse=True,…)

DictVectorizer.fit_transform(X)

  X:字典或者包含字典的迭代器

  返回值:返回sparse矩阵

DictVectorizer.inverse_transform(X)

  X:array数组或者sparse矩阵

  返回值:转换之前数据格式

DictVectorizer.get_feature_names()

  返回类别名称

DictVectorizer.transform(X)

  按照原先的标准转换

from sklearn.feature_extraction import DictVectorizer

 

def dictvec():

"""

字典数据抽取

:return: None

"""

# 实例化

dict = DictVectorizer()

 

# 调用fit_transform

data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])

 

print(dict.get_feature_names())

 

print(dict.inverse_transform(data))

 

print(data)

 

return None

 

if __name__ == "__main__":

dictvec()

运行结果:

修改属性,让数据更直观。

from sklearn.feature_extraction import DictVectorizer

 

def dictvec():

"""

字典数据抽取

:return: None

"""

# 实例化

dict = DictVectorizer(sparse=False)

 

# 调用fit_transform

data = dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])

 

print(dict.get_feature_names())

 

print(dict.inverse_transform(data))

 

print(data)

 

return None

 

if __name__ == "__main__":

dictvec()

运行结果:

1.4 文本特征抽取

作用:对文本数据进行特征值化。

类:sklearn.feature_extraction.text.CountVectorizer

CountVectorizer语法:

CountVectorizer(max_df=1.0,min_df=1,…)

返回词频矩阵

CountVectorizer.fit_transform(X,y)

  X:文本或者包含文本字符串的可迭代对象

  返回值:返回sparse矩阵

CountVectorizer.inverse_transform(X)

  X:array数组或者sparse矩阵

  返回值:转换之前数据格式

CountVectorizer.get_feature_names()

  返回值:单词列表

from sklearn.feature_extraction.text import CountVectorizer

 

def countvec():

"""

对文本进行特征值化

:return: None

"""

cv = CountVectorizer()

 

data = cv.fit_transform(["人生 苦短,我 喜欢 python", "人生漫长,不用 python"])

 

print(cv.get_feature_names())

 

print(data.toarray())

 

return None

共4页: 上一页1234下一页


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:什么是分布式缓存(分布式缓存支持哪些数据类型)
下一篇:Python - 密码学编程(python入门教程(非常详细))
相关文章

 发表评论

暂时没有评论,来抢沙发吧~