计量语言学

出处:按学科分类—社会科学总论 中国青年出版社《社会科学学科辞典》第847页(1176字)

又称“统计语言学”。

应用数学方法和统计程序来处理语言资料的学科。数理语言学的分支。

人们在用语言进行交际时,语言成分的使用显示出随机性,可以使用统计方法对其进行研究。如统计语言单位(音素、字母或词汇项)的出现频度;统计某作家的一部、某一类或全部作品一共用了多少不同的字、词及出现频率、常用的修辞手法,以研究作家文体风格;在比较语言学中采用数学公式,衡量各种语言的相关程度;在历史语言学中确定不同时期语言发展的特征;以及从信息论观点分析语言信息的传输过程等等。

计量语言学研究领域包括:音位、语素、词组等在一定条件下可能出现的数量和频率,即对语言结构、语言变化、语言差异的统计研究;语言行为的概率模式的研究。在计算机信息处理研究飞跃发展的情况下,各先进国家对于语言文字的统计分析工作十分重视,成果累累。

各种类型的语义频度词典,不同专业的词汇频度词典,着名作家和作品的词汇频度词典相继编印。对于各种的词汇统计工作,都可借助电子计算机,通过查频程序来进行。

如对英语词的统计表明,736个最常用词占全部所调查文献所用词的75%,从而说明只要掌握这736个常用词,就可以读懂英语文献的3/4。

我国科学工作者利用概率论和数理统计原理,进行了汉语词汇和汉字频度统计工作,在中文数理统计的原理方面,得到了汉字统计抽样以每组100万字为适度的结论,并提出了以相关连绵字为特征的统计误差检验方法。

美国人齐夫把词的频率分布和“消耗最小(最经济)”这一基本生物学原则联系起来。“齐夫公式”是描述某种语言中词(或单字)的顺序号与出现频度关系的经验公式。

要进行语言的信息处理和机器翻译,首先必须把词汇表(或字表)存贮到计算机里面去。在存贮器中词(或字)应该按使用频度的高低排列,以便提高效率,因为电子计算机查词典总是按照词(或字)的顺序,从前到后一个一个地查找的。因此,在计算机语言文字信息处理中,齐夫公式具有一定的指导作用。英国统计学家尤耳根据统计语言学的研究,总结出着名的“尤耳图”。

用他的办法可以帮助确定匿名文章的作者。这对文学考证的研究和公安工作是有参考价值的。

计量语言学的更大价值是在破译密码方面。根据对密码报文中各个字符的数理统计,采用一系列数学方法和电子计算机工具,可以尽快地破译。

这项技术也应用到了文字考古学方面,例如对美洲玛雅文和古希腊线条文字的译读,都获得了相当大的成就。

人们很早就已经开始了语言的计量工作。19世纪80年代,德国青年语法学派的一些代表人物就曾经采用统计的方法来处理语言材料。20世纪初,俄国数学家尔柯夫曾用概率论的方法统计过人普希金的诗作。

分享到: