影响评价与数据诊断
出处:按学科分类—自然科学总论 北京出版社《现代科技综述大辞典上》第96页(3299字)
在统计学的研究中,为了研究某个问题,常常去收集与该问题有关的数据,然后假定一个适当的模型,去分析这些数据,进行统计推断,进而做出有关结论。
这里有两方面的问题,一方面,任何模型都是对客观复杂过程的一种近似描述,它不可避免地要包含某些假定,甚至模型本身也是一种假定,那么自然要问模型本身是否真的近似反映了实际问题?它与数据中的绝大多数数据是否一致?另一方面,如果模型正确,那么在实际收集数据过程中,由于疏忽或失误常出现一些错误数据,这些错误数据的存在是否会严重干扰所作的统计结论?如果会,怎么诊断出来?怎么评价这种干扰的程度?这些问题都是在用统计方法解决实际问题时必须做出回答的。
影响评价与数据诊断正是因回答这些问题而发展起来的一种统计方法。这种方法是通过两种扰动方式:一种是剔除数据,另一种是对数据的微小扰动,研究某一关心的目标在扰动前后的变化,进而找出离群值或异常值点(outlier),高杠杆点(high leverge points)和强影响点(influentical points),正是通过诊断,可以发现数据之间更精确的结构,从而对模型进行改进。这无疑会提高统计推断的准确性。
影响评价与数据诊断研究的比较成熟的成果是对线性回归模型中相关数据的诊断以及数据对目标的影响。这方面的内容形成回归诊断的内容。
最早,人们发现回归分析中的残差包含了许多模型假设与数据的信息,因此残差成为回归诊断最基本也是最重要的诊断统计量。常用的是内(外)t化残差,通过它可以诊断数据中的离群值。Anscombe和Tukey(1963)、Ellenberg(1973),David(1981)等都研究了这种类型的残差。
由于残差总是与线性回归的投影阵也称帽子阵相联系,所以帽子阵在残差分析中占有重要地位。Hoaglin和Welsch(1978)指出通过它可以诊断出设计空间的高杠杆点。也可以看成是设计空间的离群值点。
回归诊断的另一重要内容是影响分析。在正常情况下,数据中的每一组数据对统计推断的影响应该相差不多。如果某个数据影响突出,那么包含这组数据的模型和不包含这组数据的模型所作出的统计推断就会相差很大。我们称这组数据为强影响点。
找出合适的统计量度量影响,并给出标准,是影响分析的主要任务。
最初的影响分析,主要考虑剔除数据对回归估计以及预报方面的影响。文献中提出的度量影响的量测有3类:一类是距离型量测。它们是建立在Hample(1974)的影响函数基础上的,又可统一为Cook的距离函数,以Cook距离(1977)和Welsch与Kuh(1980)的W-K统计量为代表。
另一类是体积型量测。主要有Andrews-Pregibon(1978)统计量、协方差比统计量以及Cook和Weisberg(1980)的置信域的体积比等。
再一类是Bayes型量测。主要由Johnson(1979)做出。
后来Cook(1986)从对数据的微小扰动着手,考虑扰动前后似然函数的变化,利用微分几何中的曲率研究数据及模型的局部影响。这一方法有其广泛的适用性,得到了许多统计学家的重视。
在考虑实际问题时,如果实际数据的许多点都与既定模型有很大的偏差,则常常是保留模型,通过寻求对数据的一个适当的变换,使变换后的数据能很好地拟合模型,然后再进行有关统计推断。用得最广泛的一类变换是Box-Cox变换。
该变换包含一个变换参数λ,它可通过数据估计出来。于是,它不可避免地受到数据中离群值点和强影响点的影响。
因此诊断出数据对变换的影响,是处理数据不可缺少的部分。常用的数据变换的诊断方法有Atkinson(1973,1986)的Atkinson诊断法、Cook和Wang(1983)的似然距离法,还有Atkinson(1985)的图诊断法,进一步还可考虑数据变换的局部影响。
除了用诊断统计量进行诊断外,在回归诊断中还发展许多图示法。常用的有Anscombe(1973)的标准残差图、Mosteller等(1977)的加变量点图、Ezekiel(1924)的偏残差图、Atkinson(1982)的具包络的正态图等。
过去大多数影响评价和数据诊断主要是建立在正态线性模型基础上。现在影响评价和数据诊断已经推广到许多领域。
在多元分析中,Campbell(1978)研究了判别分析中的影响函数,Radhakrishran(1981)研究了一般参数估计的影响问题,Critchley(1985)研究了主成分分析中的影响问题。Pregibon(1981)讨论了Logistic回归的影响评价问题,Mc Cullagh等(1983)研究了广义残性模型的影响问题。Pena和Martin(1986)等对时间序列中的影响问题给出了一系列的研究成果。对非线性模型中的影响问题也有一些研究。
影响评价与数据诊断,从最初的离群值诊断,发展到影响评价,从正态线性模型到广义线性模型、时间序列模型以及多元分析模型,其研究范围和深度不断扩大。但至今人们还没有建立影响评价和数据诊断的稳固基础。
虽然研究范围扩大了,但除了正态线性模型的结果比较丰富外,其它领域虽有研究,但还不够深入、全面。Bayes统计是当今统计学的重要流派,其研究已深入到各个领域。同样,研究影响评价和数据诊断的Bayes方法也是一个很有前途的方面。图示法-直是统计学家感兴趣的领域。
对于高维数据如何用图示法给出直观诊断,仍然是大家追求的目标。统计软件中包含的诊断和影响的方法很少,如何使影响评价与数据诊断完全成为软件还有待研究。
稳健方法和诊断方法都是们关心的问题,只是研究的着眼点不同,那么如何使两种方法结合起来,还有待研究。总之,影响评价和数据诊断今后仍然是统计学的一个十分活跃的领域。
。【参考文献】:1 Belsley D A, et al. Regression Diagnostics : Identifying Influential Data and Source of collinearity. New York: Wiley. 1980
2 Pregibon D. Ann Statist, 1981,9:705~724
3 Cook R D, et al. Residuals and Influential in Regression. New York and Lindon: chapman and Hall, 1982
4 Atkinson A C. Transformations and Regression, Oxford Univ Press, 1985
5 Chatlerjee S, et al. Statistical Science,1986,1:379~416
6 Cook R D. J Roy Statist Soc Ser B, 1986,48:133 ~ 169
7 戴伯新.数学的实践与认识,1988,2:61~71
8 韦博成,等.统计诊断引论.南京:东南大学出版社,1991
(南京理工大学戴伯新撰;项可风审)