聚类分析
出处:按学科分类—哲学、宗教 山西人民出版社《当代青少年心理与教育大辞典》第273页(734字)
是常用多元统计分析方法的一种。
由统计数据出发,以性质上联系的紧度程度为标准,把观测对象划分为若干类型。聚类分析是在类型数与结构未知的情况下根据统计值进行的,所遵循的基本原则是把“相似”或“接近”的对象聚为一类,属于探索性分析技术,对最初的数据筛选作用大。
在心理与教育研究中运用聚类分析可以探讨研究对象的结构与类型,并且简约化资料,为预测提供基础。
因聚类对象不同,该方法可以分为两大类:对样本中个体进行的Q型聚类分析和对样本各指标(变量)进行的R型聚类分析,前者采用欧几里得距离等各种距离为聚类统计量,而后者采用相似性系数作为分类标准。进行聚类分析的基本步骤包括:1.确定分析类型为Q型或R型,把数据标准化以统一量纲。2.选择度量对象相似性或距离的方法,求出对象的距离矩阵。
3.确定度量类间相异性的方法,计算类间距离,进行逐步聚类。方法有系统法、分解法、动态法、K均值法等多种,以系统聚类法最为常用。系统聚类法也即谱系聚类,它先把每一元素视为一类,然后不断合并至全部聚为一类为止。其结果常以树状图或冰柱图呈现,分析者可对分类层次及类别一目了然。
由于不同聚类方法对类间距离定义不同,且数学特性有别,因而分类结果可能不一致,这需要研究者充分分析,依据心理与教育学科的专业知识进行选择与解释。聚类分析因不具有相关的抽样分配理论及结果检验方法,其结果不可进行总体推论,故而称为描述性的统计方法。
从方法严密性的角度考虑,聚类分析在类别数的确定、分析变量的选择、对象间距离或相似性度量统计指标及每一类组成要素等问题上尚存困难。尽管聚类分析的理论还不完善,方法较粗糙,但该方法仍得到广泛运用,与回归分析、判别分析并称三大统计分析方法。