数理统计方法
出处:按学科分类—自然科学总论 山东人民出版社《方法大辞典》第101页(2307字)
把概率论的理论与方法应用于统计科学中,所得到的统计方法称为数理统计方法。
统计学的目的是得到数据,即从总体中抽取一定数量的样本并测出有关的数据以及利用数据所提供的关于总体的信息来推断关于总体的结论。它是由部分信息推断关于全体的结论,属于归纳推理。使用归纳推理有时会得出错误结论。
概率论的作用就在于对这种推理进行演绎的分析,以便寻找好的统计方法,充分利用所得到的信息并减少得出错误结论的概率。
数理统计方法的发展主要是19世纪中叶以后的事。早期的统计工作,如全国人口的调查,经济状况的统计等,所用的方法仅仅是收集数据,绘制统计图表和计算平均数等。
18世纪末年,拉普拉斯(Laplace)与高斯(Gauss)分别在研究误差理论时发现了在数理统计中非常重要的“正态分布”;另外,人们将当时已获得的概率论方法用于物理学、保险业、人口学以及其他社会科学领域。自此以后,人们便开始研究统计学与概率论之间的关系。英国统计学家K皮尔逊(K.Pearson)为两者的结合作出了意义重大的贡献。他所研究的基本统计问题是寻找通用的概率分布来描绘所要研究的总体。
英国统计学家R.A.费希尔(R.A.Fisher)继续发展了这一工作,奠定了数理统计的基础。他开创的研究工作有“实验设计”、“估计理论”、“方差分析”等。
费歇之后,数数统计又有了长足的进步。20世纪30年代奈曼(Neyman)与K.皮尔逊之子E.皮尔逊发展了“假设检验”的理论,称为奈曼——皮尔逊理论;在同一时期,奈曼创立了区间估计理论;40年代,美国统计学家A.瓦尔德(A.Wald)创立了统计决策理论;J.威夏特(J.Wishart)、H.浩泰林(H.Hotteling)与S.沃克斯(S.Wilks)等人发展了样本分布理论;T.W.安德森(T.W.Anderson)开创了多元统计分析方法。另外,实验设计、方差分析学也有了新的发展。
二次世界大战后,除原有统计问题在继续研究之外,又出现了几个新的发展方向,有序贯分析、非参数统计方法、时间序列等。
计算机的出现给数理统计的理论与应用增添了新的活力。它使得以前由于计算量过大而无法计算的问题得以解决,用计算机进行抽样模拟使得统计试验简便易行。
计算机的应用对于数学模型的建立也产生了很大影响。以前人们畏惧复杂的统计数学模型,在建立模型时难免削足适履,使模型脱离实际,比如只使用线性模型。
在计算机的帮助下,统计模型的建立有了更大的自由,由线性模型扩展到非线性模型,甚至是用数值方法定义的非线性模型。
数理统计的任务有两个方面:一方面是获得数据,另一方面是进行统计推断。
与此有关的内容有以下几个方面。
估计理论。
它所要解决的问题是在总体分布类型已知的前提下,估计分布中所含的未知参数,分为点估计与区间估计两种。研究的问题包括估计的方法以及分析各种方法的优劣。
假设检验理论。
包括原假设的建立,统计量的选取及其概率分布的计算,拒绝域的确定,检验结果的可靠性,以及各种检验方法功效的比较等。
统计决策理论。它把统计推断看作一个决策问题。
即从所有能够采取的行动方案之中选取一个方案,比如点估计问题就是从参数集合中选取一个参数值。任何方案都可能带来损失,决策原则是使损失越小越好。
统计决策理论包括对于损失函数、风险函数、决策函数的分析。
非参数统计。
假设总体的分布类型已知,但其中包含有限个未知的实参数,例如总体分布是正态的,而对于它的均值或方差进行估计或检验,解决这类问题的统计方法及其理论称为参数统计。相反,如果对总体的分布不做严格的假设,例如检验两组样本是否来自同一连续分布的总体,这里只假设每个分布都是连续的,而对于分布的数学形式则一无所知。
这类统计问题的方法及理论称作非参数统计,又称作分布自由,其结果具有更大的普遍性。
序贯分析。
其特征是抽样前不确定样本数量,序贯地抽取样本,逐次对样本进行分析,以确定抽样应继续下去或者由已得到的样本可以做出推断。
这样做的目的是为了达到预先要求的精度以及在同样精度下减少样本数量。
多元分析。有些统计资料中含有多个变量,例如关于学生身体情况的资料中有年龄、身高、体重、胸围等。多元分析包括主成份分析、回归、相关分析、聚类分析、因子分析、判别分析等。
时间序列。
用概率统计方法分析随时间变化的随机数据序列,包括建立模型、参数估计、预测、控制等内容。
数理统计的理论发展与实际应用是紧密结合在一起的。
数理统计的一个突出特点是应用范围非常广泛,而且随着人类对自然与社会的认识的不断深化,对定量化的要求日益提高,还将出现新的应用领域。应用数理统计的历史较长,并且已发展为独立学科的有计量经济、生物统计、统计力学、质量管理、地质统计、遗传统计、政府统计、工程统计、天文统计等。