主成分分析

出处：按学科分类—经济经济科学出版社《西方经济学大辞典》第292页（1096字）

是关于多指标分析问题的主要统计方法之一，首先是由霍特林(H．Hotelling)于1933年提出的。

其基本思想是为了减少用于描述事物状态的指标的维数，将多指标转化为少数几个综合指标，以便在分析研究中简化问题，迅速抓住主要矛盾。设用p个指标X_i(i=1，2，…，p)来描述n个事物的状态(n＞p)。由于这些指标间存在着相关性，所以不妨考虑新的综合指标可以由这p个指标线性表示，即：

Y_i=C_i1X₁+C_i2X₂+…+C_ipX_p，(i=1，2，…，p)

并且满足：C₁+C₂+……+C_p=1，(k=1，2，…，p)

确定系数C_ij(i，j=1，2，…，p)，使得Y_i与Y_i(i≠j，i，j=1，2，…，p)互不相关，并且使得Y₁在X_i(i=1，2，…，p)的一切线性函数中具有最大方差，则称Y₁为第一主成分；Y₂是与Y₁不相关，并在X_i(i=1，2，…，p)的所有线性函数中具有最大方差，称其为第二主成分；依次类推，Y_p是与Y_i(i=1，…，p－1)都不相关的X_i(i=1，2，…，p)的所有线性组合中具有最大方差，则称Y_p为第p个主成分。

其中，Y₁的方差占总方差的比重最大，而Y₂，…，Y_p的方差比重逐次递减。

由于这p个指标的方差总和所构成的总方差实际反映了描述这n个事物状态的信息，因此，只要用到前面几个方差最大的主要成分就可描述原来变量的大部分方差，并可舍去余下的次要成分。其实质是减少了问题的维数，突出了重点。

在应用分析时，首先要根据相关数学知识算出有关资料的主成分；其次，选择m(m＜p)个主成分。当这m个指标的方差之和占全部方差的比率(称为累积贡献率)较大时，即：λ_i(λ_i)^－1≥85%时，则说明新的综合指标基本上保留了原有指标X_i(i=1，2，…，p)的信息，并能反映出来。

一般地，当m=3时，就可使所选的主成分保持原有信息总量的比重达到85%以上，从而起到降维的作用；最后，还要解释所选主成分的经济意义。

一个典型的应用例子是，斯通(Stone，J．R．N．，1947)对美国收入和支出要素的17个经济指标，如纯公共支出、利息和进出口差额等，利用1922～1938年的历史数据作了主成分分析，选取出三个主成分，分别解释为总收入、总收入每年的变化和时间，它们的贡献率达到97%。

另外，此分析方法还可处理诸如多重共线性或样本大小不足等问题。

分享到：

主成分分析

一周热点