【数据分析与预处理】 ---- 数据标准化

网友投稿 237 2022-11-06


【数据分析与预处理】 ---- 数据标准化

文章目录

​​1.读取数据​​​​2.数据预处理​​

​​删除(提取)评分为0的数据记录​​​​空值填补0​​​​去重​​

​​3.数据标准化​​

​​3.1 [0,1]标准化 --- 将数据压缩至0~1之间​​​​3.2 Z-Score 标准化 --- 基于数据均值和方差的标准化方法。​​

1.读取数据

data = pd.read_csv("G:\Projects\pycharmeProject\大数据比赛\data\mysql.csv")print(data.shape)

2.数据预处理

删除(提取)评分为0的数据记录

data_clean = data.loc[~data['评分'].isnull()]

空值填补0

data_fin_clean = data_clean.fillna(0)

去重

data_fin_clean_dul = data_fin_clean.drop_duplicates()

3.数据标准化

data_select = data_fin_clean_dul['评分']

3.1 [0,1]标准化 — 将数据压缩至0~1之间

def MaxMinNormalization(data): data = (data - np.min(data))/(np.max(data) - np.min(data)) return datadata_mmn = MaxMinNormalization(data_select)

3.2 Z-Score 标准化 — 基于数据均值和方差的标准化方法。

标准化后数据的均值是0,方差为1的正态分布这种方法要求原始数据的分布可以近似为高斯分布,否则效果会很差

def StanderNormalization(data): data = (data - np.mean(data))/np.std(data) return datadata_sn = StanderNormalization(data_select)


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:【MapReduce】MR 框架原理 之 Partitioner分区
下一篇:SpringBoot整合JDBC的实现
相关文章

 发表评论

暂时没有评论,来抢沙发吧~