当前位置:首页 > 经典书库 > 方法大辞典

聚类分析

书籍:方法大辞典

出处:按学科分类—自然科学总论 山东人民出版社《方法大辞典》第102页(805字)

设有n个观测对象,对每个观测对象测量P个特征。

根据观测数据把被观测的n个个体聚成若干个类的统计方法,叫聚类分析。

在聚类分析方法中,目前使用最多的是系统聚类法。它的具体做法是:定义个体与个体之间,类与类之间的距离;先将n个个体各自看成一类,共n个类,计算各个类之间的距离,也就是个体之间的距离,把距离最小的一对或几对合并为新的类。设合并后剩下n1(n1<n)个类;再计算这n1个类中各类之间的距离,把距离最小的合并之。如此继续下去直至n个个体都成为一类。这样便得到了一系列的分类答案,分别有n个类,n1个类,……个类。究竟分成多少个类最好呢?目前这方面的理论尚不完善,实用中可以通过画聚类图,直观判断分成几个类,比较合适。

定义类与类之间的距离有多种方式,有:最短或最长距离法,即把两类中距离最近或最远的两个个体的距离作为两类的距离;重心法,即用两类重心之间的距离作为两类的距离;离差平方和法,这种方法中的距离定义稍复杂,说明如下:设n个个体已分成k个类,C1,C2,……,Ck,用Xti表示Ct中的第i个个体的特征(P维向量),nt为Ct中个体的个数,是Ct的重心,则Ct中个体的离差平方和为

如果将两个类合并为一类,则新类的离差平方和肯定大于原来两类离差平方和的总和,所增加的离差平方和就作为这两类之间距离的平方。每一种距离的定义都对应着一种聚类方法,不同聚类方法的分类结果常常稍有差别,使用时选择哪一种呢?一种处理方式是,对各种不同聚类方法的结果进行比较,把各种方法中相同的结果保留下来,形成几个类,把分类结果有差异的那些个体挑出来,放入与它们最接近的类中去。

上一篇:数理统计方法 下一篇:方法大辞典目录
分享到: