vue项目接口域名动态的获取方法
377
2022-08-27
python数据分析 - 数据降维PCA(python数据分析要学哪些东西)
python数据分析 - 数据降维
1.PCA最大可分性的思想2.基变换3.方差4.协方差5.协方差矩阵6.协方差矩阵对角化7.PCA算法流程8.PCA实例
大概主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。
首先考虑一个问题:对于正交属性空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达?
可以想到,若存在这样的超平面,那么它大概具有这样的性质:
最近重构性:样本点到这个超平面的距离足够近最大可分性:样本点在这个超平面上的投影能尽可能的分开
基于最近重构性和最大可分性能分别得到主成分分析的两种等价推到,我们这里主要考虑最大可分性,并且一步一步推到出最终PCA。
1.PCA最大可分性的思想
直观上,第一主成分轴 优于 第二主成分轴,即具有最大可分性。 下面解决一些基本概念。
2.基变换
3.方差
回顾一下,我们的目的是希望在降维过程中损失最少,换言之,我们希望投影后的数据尽可能分散开。这种分散程度可以用方差来表达,方差 越大,数据越分散。
4.协方差
协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。
5.协方差矩阵
这个就是协方差矩阵嘛!
6.协方差矩阵对角化
我们要找的P不是别的,而是能让原始协方差矩阵对角化的P。
由上文知道,协方差矩阵C是一个是对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质:
1)实对称矩阵不同特征值对应的特征向量必然正交。
其中\Lambda为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。
7.PCA算法流程
总结一下PCA的算法步骤:
设有m条n维数据。
1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个特征)进行零均值化,即减去这一行的均值
4)求出协方差矩阵C的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6)Y=PX即为降维到k维后的数据
8.PCA实例
我们用PCA方法将这组二维数据其降到一维。
降维投影结果如下图:
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~