当前位置 > 首页 > 36小时数据分析行业HOT点 > 总算搞清楚了为啥“特征值”会在主成分分析法中凑热闹

总算搞清楚了为啥“特征值”会在主成分分析法中凑热闹

来源:数据分析师 CPDA | 时间:2016-12-28 | 作者:admin

我第一次用到主成分分析法是在几年前,因为一个项目中要帮客户量化测量心理学的一些问题,那时候因为时间赶,所以只学会了如何去用这种方法;最后一次用主成分分析法也还是那个客户,但那次是为了帮助测量它的内外部合作伙伴满意度,我当时的水平也还是停留在“熟练地应用主成分分析法”层次。几年下来直到昨天下班前,我一直有2个问题始终没搞明白:也就是“为啥‘特征值’会跑到主成分分析法中凑热闹”,以及“为啥非得用相关系数矩阵来求‘特征值’,用萝卜矩阵、苹果矩阵就行……?!”。说白了,就是知其然不知所以然,如果搞清楚了主成分分析法的机理,那么也就解决了上面我的2个困惑。现在,我终于可以为我这几年来的探索历程划上一个句号了。

 

下面,我来讲述下主成分分析法背后的数学推导过程。当然了,文章末尾还是得感谢下我所参阅的N篇论文的作者们。

 

一、需要铺垫的数学理论及其通俗解释

(1)坐标旋转与降维的关系

主成分分析法的思想,其实就是降维。因为考虑一个问题背后可能存在多种影响因素,而这些因素与因素之间有可能存在共线性的现象。如果把这一些共线性的因素统统提炼出来打个包,就可以减少考虑因素的数量。因此无论在自然科学研究中,还是财经分析领域,主成分分析法应用都非常广泛。在图形分析领域中,该方法广泛应用于人脸的识别技术,因为可以减少图片的像素分析数量。

 

那么怎么样来实现降维呢?这里应用到了坐标旋转的技术。为了能够画出来,我先在二维空间举个例子。假设有一些样本点,每个样本点带了2个维度的信息X1和X2,如果我们去完整的分析这些样本的信息当然可以,但可能费时费力。假如我们只是单一的去分析其中某一个信息,例如只分析X1或X2的话,那么丢失的信息又会比较多,有没有什么办法可以即最大限度的保留信息,又可以减少分析的维度呢?那就是应用坐标旋转了。如下图所示,假设样本的分布呈一个椭圆形的话,那么单独取X1或者X2的投影信息,是不够的, 比方说很多样本点在X1方向上是重叠的,因此投影是共用一个点。

 

样本

这个时候,我们如果新建一个直角坐标系,或者说将原来的X1-X2坐标系旋转一个角度,变成Y1-Y2坐标系,让其中一条坐标轴穿过这个椭圆,那么再取这些样本在新坐标轴上的投影时,我们会发现Y2坐标轴上因为穿过的样本点最多,因此投影的长度也就最长,那么所保留的样本信息也就最多。这时候,如果我们只取Y2轴上的投影信息话,即可以满足最大幅度的获取样本信息的目的,又可以减少样本信息维度,达到降维的目的。不过这个时候隐藏了一个信息,后面会用到:那就是样本点在新坐标系2个坐标轴的投影,它们之间的关系是“正交”的,因此这种坐标系的旋转变化也叫作“正交变化”

 

正交变化

 

(2)方差最大化在研究中的应用

什么是方差?其实就是样本散布在均值周围的离散程度,因此方差是用来描述样本集中度的指标。方差越大,说明样本分布的越散,在统计学中还有另一种说法,就是信息越充分。那么什么时候我们搞研究用到方差的最大化,什么时候用到方差最小化呢?根据我和广大研究者的经验总结是:

 

当我们需要进行探索研究时:这个时候因为不清楚研究对象的完全信息,因此我们希望获取研究对象信息时希望最大可能的获取到对象信息,此时我们追求方差最大化。像刚才那样的坐标旋转,Y2轴穿过样本群并获取到最多的投影信息,也是“方差最大化”的一种应用方向。

 

当我们需要进行控制研究时:这个时候我们希望研究对象按照我们预想的路径变化,尽可能的减少偏差,这个时候我们追求方差最小化。例如,生产出来的产品我们当然希望质量稳定,不要波动大,6西格玛的追求其实即如此。

 

(3)拉格朗日乘子法

如果只是表达什么是拉格朗日乘子法是什么概念的话,百度上有很多,我就摘录了一个:假设需要求极值的目标函数为f(x,y),限制条件为g(x,y),定义一个新函数

 

拉格朗日乘子法

 

则用偏导数求出方程:

 

偏导数求出方程

 

求出x,y,λ的值,代入即可得到目标函数的极值。

        不过后来为了搞清楚拉格朗日乘子法的原理及背后的数学推导,我是花了好几天的晚上睡前的1小时,搜刮了很多篇论文和博客后,才在一个2维平面和一个3为曲面相交的实例讲解中弄明白。我发现这还真不好用纯文字进行描述或举例子,里面涉及梯度、投影等概念,大家有兴趣可以去wiki百科一下,那里有好多大师级的讲解,会比较全面和系统。当然了,需要有一定的空间想像力,这里就截一个图作为引子,帮助大家去搜刮线索。

拉格朗日乘子法原理

(4) 中心化

 这个是统计学的领域中常用的概念。也就是说,如果得到一群样本变量,我们将其按照“列维-林德伯格中心极限定理”进行变形的话,那么变形后的样本变量服从均值为0,标准差为1的标准正态分布N(0,1)。中心化最大的用处有2个,在本次的应用中,我们用到的是消除量纲的作用。理解起来其实很简单,假如“身高”和“体重”进行相关性分析的话,由于一个量纲是米,一个量纲是KG,2者不能直接求相关系数,要先化成统一量纲在N(0,1)下的数字后,再求相关系数,就变得有意义了。列维-林德伯格中心极限定理的变形是这样的:

列维-林德伯格中心极限定理

二、二维空间利用主成分分析法进行降维的数学推导。

为啥要讲二维空间的降维呢?其实主要是数学推导的过程比较简单,而且好画出来。如果理解了二维空间的推导,就容易理解多维空间的“降维”了。

 

现在我们开始数学推导之旅:

 

首先,还是刚才坐标旋转的例子,我们知道坐标系X1-X2旋转成为了Y1-Y2之后,能够起到“降维”获取样本信息的作用。那么原坐标系到底旋转多少度才比较合适呢?这就是需要求解的了。

  假设原坐标系旋转了θ,那么原坐标系上的点用新坐标系表示的线性转化,用线性代数表示为

假设线性公式

 换成我们常用的方程式表示为:

 

方程式

 

这里我们可以抽象一下,将写成向量的形式,

 

向量公式

那么如果我们求解得出了u这个旋转向量的每一个元素,那么我们就可以通过反三角函数求出θ的值了,这样一来旋转的角度也就知道了。那么在这个新的坐标系下,我们就可以用新的变量表达式表达出降维后的样本,从而进行下一步研究。怎么去求这个u的元素呢?这就要用到“方差最大化”原则了。

 

方差最大化

 

如何求出方差的最大值呢?此时又要用到前面讲到的拉格朗日乘子算法了。

我们前面说到,整个坐标系旋转实际上是一种“正交变换”。因此存在这样的一个正交变换的等式

 

如何简化呢,我们单独剥离出这个矩阵,然后进行简化:

矩阵方差

 

写到这一步,其实熟悉统计学的人能立刻认出(2)式中间那个矩阵就是协-方差矩阵。我们用这个式子来表示协-方差矩阵

 

协方差

 

于是我们将S带入(2)式,并将(2)式回代到(1)式中,并将得到矩阵特征值

这样,只要我们求出S的特征值,并求出其对应特征向量,就可以得到u向量中的每个元素了。这样一来,“特征值”就是这么样跑到主成分分析法中凑热闹的!

那还有一个问题,为啥一定要用相关系数矩阵呢?

 

这个问题,得回到量纲统一的领域。如果原坐标系下X1和X2的维度,它们的量纲是一样的,其实就不用相关系数矩阵,直接用协-方差矩阵就可以了。但是如果它们的量纲不一样,就得先将样本进行中心化,变成相关系数矩阵才行。否则直接2个不同量纲的变量是无法进行运算的。那么我们得将原坐标系的S公式做一下变换

 

此时,眼尖人会认出,(3)式中的矩阵的每个元素,其实就是相关系数的公式的一种表达形式。这个时候就要求读者有比较扎实的统计学基础了。因为你这个时候去百度相关系数矩阵,结果至少会给出好几种相关系数的表达式,而这种表达式应用比较没那么常见。好了,这样就回答了“为什么非得用相关系数矩阵”来求“特征值”的问题了。

这个时候,其实问题并没有完,因为刚才我们是抽取了一个主成分Y1,那么另外一个Y2主成分是不是也要抽取呢?这个就得看情况了。如果Y1主成分算出的λ1,也就是主成分1的方差贡献超过总的方差贡献(λ1+λ2)的70%以上时才能说“降维”成功了。(但是自然科学领域则不行,至少得90%以上)。如果达不到这个水平,则需要补充第二个主成分。那么第二个主成分的计算推导,你如果动笔亲自算一下,你会发现其实和第一个其实完全是一样的。也就是说,相关系数矩阵或协-方差矩阵的阶数,和矩阵的“特征值”个数是一样的,有多少阶就会有多少个特征值。因为这2个矩阵都是正实对称矩阵,这个是矩阵的特性所决定的。这里就不继续证明正实对称矩阵的特征值个数和秩之间的关系了。

 

三、多维空间利用主成分分析法进行降维的数学推导。

其实,写到这里,如果我们动动笔会发现,还没推导几步,结果就已经很清晰了。因为理解了二维空间下的“降维”,那么多维空间下的“降维”也就清楚了。我们假设在多维空间下,有一群样本点,旋转坐标轴后得到新的坐标轴下的方程式

 

这里我们可以抽象一下,将写成向量的形式,

 在新的坐标系下,我们会抽取一个主成分出来,并去求其方差最大化

后面的推导过程,其实和之前二维场景下很相似,大家可以动笔试试看,其实真没想像中的那么恐怖。最后得到各个维度的协-方差矩阵和相关系数矩阵

 然后求出它们的“特征值”λ1,λ2……λn,以及相对应的特征向量。

  四、鸣谢让我能够完成夙愿,解开困惑好几年的这些论文的作者们

1.      杜智敏 郭宜斌《抽样调查与SPSS应用》

2.      “超级数学建模微信号”下面的一片未署名文章《机器学习中的数学:线性判别分析、主成分分析》

3.      郑颖 王增幅 《最小领域均值投影函数及其在眼睛定位中的应用》

 

小编简介 
署名:statist3927(CPDA学员)

暨南大学金融系,经济学硕士