统计调查的误差及其防止方法
出处:按学科分类—农业科学 中国农业出版社《植物保护统计手册》第42页(3225字)
一、统计调查中的误差性质及产生原因
在统计调查工作中,无论是全面调查,还是非全面调查,都难免会发生各种技术性误差。如登记性误差和汇总、过录性误差。在抽样调查中,由于用抽样样本代表总体,还多一种误差,叫代表性误差。而代表性误差又可分为两种,一种是一贯的代表性误差,即系统性误差,产生这种误差的原因是在调查中违反随机原则或者在抽取样本单位时,组织形式不当。如调查者有意识地选择较好(大)或较差(小)的单位进行调查,据此计算的统计量必然与实际情况符合率较差,出现偏好(大)或偏差(小);另一种是偶然的代表性误差,它是由于样本不能完全代表总体所产生的误差,因为抽样调查毕竟只是从总体中调查一部分单位,即使做到严格遵守随机原则,要使抽样样本结构完全和总体结构一样也是不可能的。
技术性误差和一贯的代表性误差是人为因素造成的,而抽样误差则是抽样调查所固有的。也是抽样调查不可避免的。正如前所述,抽样样本结构和总体结构稍有不同,哪怕是很微小的不同,据此计算的抽样指标和相应的总体指标就不会完全相同,这就产生了抽样误差。
二、影响统计调查误差因素及防止方法
(一)非抽样误差 登记性误差是由于调查工作不细致或方法不对头等原因而造成的观测误差;调查获取的原始资料在建立原始记录台帐的过程中,也容易出现笔误,而造成过录性误差;当统计资料经过科学分组后,在汇总各个指标的分组数值和总计数值之前,对原始材料的审核不严格,就会导致汇总性误差。防止造成上述技术性误差的方法,一是靠做好调查人员的技术培训和对被调查对象的宣传工作,在调查过程中加强组织实施和质量控制等方法加以克服;二是在对分组资料进行汇总前,必须对原始资料进行完整性、及时性和正确性的检查。完整性就是要检查所有被调查单位的资料是否齐全;及时性就是检查所有调查单位的资料是否都按规定时间调查的;正确性就是要检查全部资料是否正确可靠。正确性的检查方法有三种,首先是逻辑性检查,也就是检查资料有无不合理的地方,有平衡关系、相关关系的统计指标之间,是否有不平衡或相矛盾的地方。例如,某病虫的自然损失与作物产量比例关系与病虫发生程度是否相符合;防治面积与挽回损失是否合逻辑等。其次是计算检查,即抽样调查表或报表中各个指标在计算结果上有无错误。再次是检查调查表或报表中,各项指标的计算范围和计算方法是否符合调查方案的规定,计量单位是否统一、是否严格执行法定计量单位等。
(二)抽样误差(样本估计量的误差) 由于抽样调查是以样本指标推断总体指标,用样本统计量估计总体参数,因此,不可避免会出现各种误差。这种误差主要是:总误差、偏差、抽样误差、抽样平均误差和抽样极限误差等。
在对样本单位的调查观测以及抽样估计的过程中所产生的各种误差,其综合量形成抽样的总误差,即偏差和抽样误差。偏差反映了样本指标的期望值与总体参数的偏移程度;而抽样误差则描述了抽样估计的精确程度。
抽样估计的总误差与偏差和抽样误差的关系,可表述为:
总误差平方=偏差的平方+抽样误差的平方
要减小抽样的总误差,必须同时考虑降低偏差和抽样误差这两方面。偏差产生的原因有多种:一是样本统计量的偏差,这种偏差一般可由统计方法加以解决。如改良统计量或测算或修正统计量的偏差。二是非抽样误差,这是指抽样调查中发生的,但又不是抽样方法本身所致的偏差,如登记性误差,调查人员的调查观测误差等,防止这种偏差的方法一是对调查人员进行专业技术培训和对被调查对象加强宣传动员;二是在调查过程中加强组织实施和质量控制。
抽样误差则是由抽样方法本身所引起的误差,这一节仅介绍抽样误差的各种表现形式和影响因素,对抽样方法所引起的误差,在第三章将详细介绍。
(1)实际抽样误差 这是指在一次抽样中,由随机因素引起的样本指标与总体参数的偏差,即使在排除上述调查误差的情况下,抽样指标与总体参数仍有或大或小的差距。例如:在水稻稻飞虱抽样调查时,随机抽取100块田,计算加权平均百蔸虫量为1500头,而在抽样调查的这100块田中百蔸虫量幅度为1000-2000头,也就是说,对于每一块田,这里就有大于1500和小于1500头的田块,即有500头左右的误差。这种误差是由于许多随机因素所造成的,如稻飞虱的分布状况,田间温湿度等小气候的差异等等。这些因素一般很难人为地加以改变或消除,因而,这种误差具有随机性,从上例中也可以看到,由于随机地从总体中抽取样本,哪个样本被抽到是随机的,由样本所得到的又是随机变量,因而,样本指标与总体指标的偏差也是随机变量。
(2)平均抽样误差
a.平均抽样误差的概念 不仅要认识某一次实际抽样误差的大小,而且要掌握总体中所有可能的样本的抽样误差情况。但是,在总体相当大,可能的样本非常多的情况下,不可能列出所有的实际抽样误差,这就引出平均抽样误差的概念,即以平均抽样误差来描述各样本实际抽样误差的一般水平,通常所说的抽样误差,即指平均抽样误差。平均抽样误差,通常情况下可表述为抽样指标的标准差。
b.影响抽样误差的因素 总体的方差或标准差,总体方差或标准差描述了总体各单位标志值的变异程度。抽样误差与总体方差成正比关系。
样本容量。如果样本容量愈小,那么,它对总体的代表性愈差,即抽样误差愈大,因而抽样误差与样本容量成反比关系。
抽样方法。不重复抽样的样本比重复抽样的样本更能反映总体的结构,故抽样误差也会较小些。
抽样调查的组织形式。在相同的总体方差、样本容量和抽样方法下,不同的抽样组织形式有不同的抽样误差,这是因为按不同组织形式所抽取的样本对于总体的代表性是不同的,它的抽样误差也就不同。
(3)抽样极限误差 抽样平均误差仅是从理论上描述样本指标与总体指标偏差的平均状况,还无法确定某一次或某几次实际抽样中样本指标偏离总体指标的范围,也不能回答以某次抽样估计总体参数的可靠性大小,而抽样极限误差是指抽样指标与总体指标之间的可能误差范围,即一定概率保证相联系的误差范围。这就是说,首先抽样极限误差是指误差范围。我们知道一个总体有许多个样本指标,而这些样本指标都在总体指标范围内变动,这种变动幅度或大或小,取值或正或负,因而就有一个变动范围问题,这个范围的绝对值就是抽样极限误差,抽样极限误差对控制所估计的总体参数是非常重要的。
其次,抽样极限误差是指可能的误差范围,这就是说,抽样极限误差所指的误差范围不是唯一固定的,而是根据抽样调查的目的,根据人们希望控制的把握性来确定的。如果希望控制的把握性大些,那么就给予较大的允许误差范围;反之,给出较小的允许误差范围。这种把握性就是前面讲到的概率保证程度。抽样极限误差与概率保证程度成正比关系。
再次,从抽样极限误差可以推算出抽样估计精度。它们之间成反方向变化关系。即允许误差范围增大,抽样估计精度减小。