回归分析
出处:按学科分类—自然科学总论 北京出版社《现代科技综述大辞典上》第101页(3087字)
数理统计的一个重要分支。
在数量分析中往往会发现有些变量之间存在着某种不确定的关系。如果其中一些变量为可控变量而另一些变量作为它们的因变量对这种不确定关系的分析研究称为回归分析。
通过回归分析可建立可控变量与因变量之间的数学表达式,从而进行预测和控制。
早在19世纪初,就有人利用最小二乘原理作了一些回归分析方面的工作,而“回归”一词则由英国F.Galton首先提出的,同时他还对父母的身高与子女的身高之间的关系进行了回归分析。
不确定关系中最简单的情况可归纳成由Gauss-Markov给出的线性回归模型。
模型形式为:若对随机变量y和变量x1,x2,…,xp取得了几组观测测量(样本):
(yi;xil,xi2,…,xip).(i=1,2,…,n)
且数据满足关系:
yi=β0+β1xi1+β2xi2+…+βpxip+εi.(i=1,2,…,n)
其中诸ε1,ε2,…,εn相互独立,且均服从N(0,σ2)分布。
模型中的β0,β1,…,βp为待估计参数,称为回归系数。求出了β0,β1,…,βp的估计值,…,便可建立起回归方程:
模型也可表示成矩阵形式:
其中:Y=(y1,y2,…,yn)T;β=(β0,β1,…,βp)T;
I为n阶单位矩阵:
模型中参数向量β的估计的古典方法是最小二乘估计(LS估计)。若记β的估计值为,由最小二乘原理及微积分知识可建立起正规方程组:
(XTX)·β=XT·Y
当XTX非奇异时,β的LS估计为:
β的LS估计具有良好的性质:(1)β是β的线性无偏估计。(2)对y与x1,…,xp可进行显着性假设检验。
(3)可检验第i个因素xi对y是否有显着影响。正因为这些性质,所以LS估计至今仍被不少统计工作者采用。
非线性情况一般都尽可能化为线性情况处理。多项式回归是最常用的非线性回归。对p元多项式回归只要令x1=x1,…,xp=xp,便可化为p元线性回归。正交多项式回归则是一种改进的多项式回归。
逐步回归是随电子计算机技术的发展而产生的一种回归方法,就是将变量逐一引入回归方程,先建立与y相关最密切的一元线性回归方程,然后再找第二个变量建立二元线性回归方程,……,每一步都要引入变量的显着性检验,仅当其显着时才引入,而每引入一个新变量后对前面已引进的老变量又要逐一检验,若发现某个变量变成不显着,就要将它剔除;重复这些步骤直到引入的变量均为显着而又没有新的变量可引入时,就结束挑选变量的工作而建立回归方程。
LS估计具有很多优良性质,但有时并不很理想。
这主要是由两个原因引起的。其一是当x1,x2,…,xp存在复共线性时(即X的列向量接近线性相关时),LS估计性能变坏;其二是LS估计受异常值影响很大。为了克服以上缺点,从20世纪60年代开始产生了一些新的参数估计法。
岭回归是由A.E.Horel在1962年提出,R.W.Plennard在1970年完善这种估计方法。岭回归的基本想法是以经过“中心化”、“标准化”处理的线性回归模型(这时β0=0),选择适当的k使达到尽可能小的均方误差,以便消除复共线性的影响。因k的选择依赖于未知参数β和σ2,所以选择k有一定的困难。
对k的选择法有岭迹法、方差扩大因子法等。必需指出的是岭回归不具有无偏性。
主成份估计是W.F.Mally于1965年提出的一种回归估计法。
其基本思想为:对原自变量x1,x2,…,xp通过一个线性变换产生一组新的自变量Z1,Z2,…,Zp然后把新自变量组中对试验变化不大的自变量并入模型的常数项中去(即以0为回归系数),这样便消除了X的复共线性。
稳健回归是为了克服估计值受异常观测值较大影响而提出的一类回归分析法。不少学者提出了多种稳健回归,其中Huber在1964年引入的M-估计较为常用。事实上随着|x|的增加x2迅速增加,为此用一个增加速度比x2慢的的函数ρ(x)代替x2以减少异常观测值对估计值的影响,这种想法就是M-估计的出发点。
不依赖模型的分布类型的回归分析法称为非参数回归。
权函数回归是非参数回归中较成熟的一种。这里的权函数是“距离”的函数(“距离”可以是广义的,不一定是欧氏距离),它反映了对样本值的不同重视程度。
下面给出权函数回归的一般方法:
记样本值为: (i=1,2,…,n)
(xi1,xi2,…,xin)(i=1,2,…,n)为点Pi的坐标。
要求点处y的预测值ŷ。
这里的“距离”就是指从Pi到Q之间的距离。由于离Q点越近的Pi对应的函数值yi对Q点处y的值影越大,故pi离Q越近权重应越大。当权函数{}已确定,便可得回归函数E(y|x)的估计值。还需说明一点,权函数的确定除了要满足一定的数学条件外,还要考虑实际情况。而权函数与最小二乘估计的结合回归法,则是统计工作者比较乐意使用的方法。
样条函数、计算方法等数学学科在回归分析中的应用日益广泛必会促使新的回归分析法的产生;而对某些回归分析性质的进一步讨论、研究也是当前人们感兴趣的一类问题。随着人们对社会科学、自然科学中不确定数量关系研究的不断深入,电子计算机技术在回归分析的应用日益广泛,可以相信回归分析这一学科必会得到进一步的发展。
。【参考文献】:1 中国科学院数学研究所数理统计组.回归分析.北京:科学出版社,1975
2 Seber G A F.Linear Regression Aualyeis.Wiley,1977
3 苑诗松等.回归分析及其试验设计.上海:华东师范大学出版社,1981
4 陈希孺,王松桂.近代实用回归分析.南宁:广西人民出版社,1984
5 方开泰,全辉,陈庆云.实用回归分析.北京:科学出版社,1988
(上海交通大学鲍祥霖讲师撰)