主成分分析

书籍:心理学大辞典下卷 更新时间:2018-09-13 03:45:13

出处:按学科分类—哲学、宗教 上海教育出版社《心理学大辞典下卷》第1736页(723字)

多元统计分析的一种。

研究如何通过变量的少数几个线性组合来解释这些变量的相关结构。1933年霍特林建立。若p个标准化相关变量Z1,Z2,…,Zp的线性组合Y1=b11Z1+…+b1pZp,…,Yp=bp1Z1+…+bppZp,且Y1,Y2,…,Yp满足以下两个条件:(1)Yi的系数向量为单位长,即+…+=1,i=1,…,p;(2)Y1,Y2,…,Yp的方差达到最大且互不相关,则Y1,Y2,…,Yp被称为相关变量Z1,Z2,…,Zp的主成分。第一主成分Y1是一切系数为单位长的线性组合中方差最大者,第二主成分Y2是一切系数为单位长且与Y1不相关的线性组合中方差最大者,依次类推,第k主成分Yk是一切系数为单位长且与前k-1个主成分不相关的线性组合中方差最大者。

设λ1≥λ2≥…≥λp≥0是Z1,Z2,…,Zp的相关矩阵R的特征根,e1,e2,…,ep为相应的标准正交化特征向量。可以证明,第一主成分Y1的系数向量是e1,方差为λ1,第二主成分Y2的系数向量是e2,方差为λ2。一般地,第k主成分Yk的系数向量是ek,方差为λk,即Yk=ek1Z1+ek2Z2+…+ekpZp,k=1,2,…,p,式中ek=(ek1,ek2,…,ekp)′。且对于方差有如下结果λi=Var(Yi)=Var(Zi)=p,从而第k主成分的方差占变量总方差的比例为λk/p。若前m个主成分的方差之和占总方差的比例很大(如超过0.8),则可用它们近似解释原来变量的变化情况,即主成分分析的思想。主成分分析可作为其他多元统计的中间环节。

当变量较多且彼此相关时,用少数重要的主成分代替原来的变量,可用于回归分析、聚类分析等。

分享到: