当前位置:首页 > 经典书库 > 方法大辞典

齐普夫定律

书籍:方法大辞典

出处:按学科分类—自然科学总论 山东人民出版社《方法大辞典》第369页(1336字)

以美国语言学家G.K.Zipf命名的测定文献词频分布的数理统计定律。

齐普夫曾任美国哈佛大学语言学教授。本世纪30年代,他对英语文集中单词的出现频率进行统计后发现,尽管作者使用相同的语言写作显示出不同的用词风格,然而,文集中单词的出现频率都有一定的规律。

如果把每一个词在一篇文章中的出现次数(频率)按照递减的顺序排列起来,即高频词在先,低频词在后,并用自然数从小到大给词频的倒顺序命予等级(高频词等级值小,低频词等级值大),就会发现等级值和频率值相乘是一个常数,用公式表示即:R·f=C.式中F表示频率,C为常数,R表示等级。齐普夫揭示的这种词频规律被后人称为“齐普夫定律”。

齐普夫本人用文字描述之,称为“最小努力原则”(Principle of lease effort)。

该定律由二大部分组成,统计高频词分布态的为第一定律,见前式;统计低频词分布态的为第二定律,表达式为,其中I表示词出现的数量,n表示词出现的次数序数,该表达式是由前式推导出来的。

1952年,法国的芒代尔布罗(B·Mandelbrot)发表了《语言统计结构中的信息论》等一系列论文,运用新兴的信息论方法,将齐普夫定律的公式改为f=C(r-a)-s,式中的S和a为辅助性小常数。经过修改,齐普夫定律更为完善,适用面也更宽了。

齐普夫定律的图象表达式为一条双曲线型分布。

假定有一组词频数据与齐普夫公式完全吻合,建立f与r的坐标就会看到一条标准的双曲图型。

词频分布曲线图

齐普夫定律创立以来,数理统计学家及许多文献计量学家为其建立了许多数学模型并进行实际论证。发现其为揭示书目信息特征,设计图书情报系统,编制检索词表时制定标引原则、选择最佳主题词、统计词频、进行词汇控制,高质量地组织检索文档,开展情报检索服务等提供了一系列依据和理论上的可行性。

有人推导出,情报学领域中着名的洛特卡、布拉福德、指数增长定律,均能变换为齐普夫定律,故该公式又被称为广义文献计量学通式。

不仅如此,齐普夫定律的应用远远超出了情报学领域。

英国统计学家肯德尔,1961年就任英国皇家统计学会主席时发表演讲,题为“社会科学中的自然定律”,其中引人注目地强调了齐普夫定律的重要性。

苏联文献计量学家海通,亦于近年宣称:齐普夫定律是解决社会科学分布现象的最好定律。以上溢美之词源于在社会现象中处处存在着齐普夫分布。如:词语、收入、地理特征、生物种属、城市人口分布、科学论文出版量分布等等。

因此,起源于情报学研究范围的齐普夫定律,正以非正态稳定分布律的模式渗透到经济学、地貌学、社会学、科学学,乃至整个社会科学之中,从而成为各学科共同探讨的问题。这正符合于社会科学定量化研究的趋势。正如一些统计学家预言的那样,高斯分布是描述自然科学的最好定律,而齐普夫分布将成为揭示社会科学内在规律的最好的定律。

分享到: