数理语言学

[拼音]：shuli yuyanxue

[外文]：mathematical linguistics

应用数学思想和数学方法来研究语言现象的一门新兴的语言学科，它使语言学与现代数学、计算机科学、控制论以及人工智能等学科发生密切的联系。

1847年，俄国数学家В.Я.布利亚科夫斯基认为可以用概率论来进行语法、词源及语言历史比较的研究。1894年，瑞士语言学家F.de索绪尔认为，可以用数学公式有规律地表达语言中的量和量之间的关系。他又把语言学与几何系统和只有复杂项的代数相比。1904年，波兰语言学家J.N.博杜恩·德·库尔德内认为，语言学家应该掌握初等数学和高等数学，语言学将根据数学的模式更多地扩展量的概念，并将发展新的演绎思想的方法。1933年，美国语言学家L.布龙菲尔德更认为数学是语言所能达到的最高境界。俄国数学家A.A.马尔科夫(1856～1922) 甚至在1913年就采用了概率论的方法研究A.C.普希金的长诗《欧根·奥涅金》中的俄语元音和辅音字母的序列，从而建立了马尔科夫随机过程的数学理论。

20世纪40年代以来，由于通信技术的发展，需要寻求语言的最佳的编码方法，以提高信道的传输能力，因而要对语言的统计特性进行精密的研究。机器翻译、情报检索等文献自动处理技术的出现，又要求精确地描述和解释语言的结构，建立语言的数学模型，并用数学方法来研究语言的语法和语义结构。

实践中提出的这些要求，使语言学中建立数理语言学成为必要，而科学技术的发展也为数理语言学的产生提供了可能。例如，20世纪以来迅速发展的概率论、数理统计、信息论、集合论、数理逻辑、图论、格论、模糊数学和抽象代数等数学部门，为用数学思想和方法研究语言提供了有力的武器；传统语言学内出现的O.叶斯泊森的“分析句法”，结构语言学内L.布龙菲尔德、 Z.S.哈里斯等人提出的辨别语素、分析层次的一套严格的语言研究法，在这方面也有一定的启示作用。控制论采用的一些方法，特别是模拟方法，可以作为建立语言数学模型的借鉴；计算机科学中对程序语言结构和编译技术的研究，可以作为用数学思想和方法研究自然语言的参考；人工智能所探讨的有关智能活动的一般规律，对数理语言学的研究也有一般的指导作用。

1955年，美国哈佛大学首先创办了数理语言学讨论班，1957年正式开设数理语言学课程。此后，日本、苏联、联邦德国、罗马尼亚、法国、匈牙利、捷克斯洛伐克、英国、波兰、瑞典、民主德国相继开展这方面的教学和研究。中国从50年代末逐步开展了数理语言学的研究，在用数学方法研究汉语的自动分析和生成、汉字信息处理、言语统计等方面，都取得一定成绩。有的单位还开设了数理语言学课程。

数理语言学主要包括 3个方面：

（1）代数语言学，②统计语言学，③应用数理语言学。代数语言学是采用集合论、数理逻辑、算法理论、模糊数学、图论、格论等离散的、代数的方法来研究语言，统计语言学是采用概率论、数理统计和信息论等统计数学的方法来研究交际过程中语言成分使用的频率和概率（统计规律），而把代数语言学和统计语言学应用于机器翻译、人机对话以及情报检索的技巧和方法的研究，就是应用数理语言学的内涵。

代数语言学的目的在于建立语言的代数模型，对客观的语言现实进行抽象的代数描述和理论上的精确分析，从而把语言学的某些方面改造成数学那样的演绎系统。代数语言学中的语言模型主要有分析性模型、生成性模型和辨识性模型 3种，分析性模型主要采用集合论的方法，对语法的基本概念进行数学描述，生成性模型着重于研究形式文法和自动机理论，阐明形式文法及其与自动机的关系，辨识性模型则研究句法类型演算方法。此外，还有把句法与语义结合起来研究的孟德鸠语法。这些语言模型的研究，冲破了语言学传统的归纳方法的束缚，给语言学研究带来了变革性的重大影响，而且，语言现象经过模型刻画之后，更适于计算机处理，为自然语言的自动处理提供了手段（见代数语言学）。

统计语言学的目的在于建立语言的统计模型。采用统计方法来研究语言的音素和音位的，有语音统计学;研究亲属语言分化的年代，有语言年代学；研究文章风格的，有风格统计学。近年来，人们开始利用计算机进行自然语言的统计研究（见统计语言学）。

包括机器翻译、人机对话、信息存储、信息传输等在内的应用数理语言学，主要研究语言自动分析和语言自动生成的方法，目前则重视语义的形式化研究。数理语言学丰富了语言研究的手段和方法，并为语言学的研究开辟了一个新领域。

参考书目

冯志伟：《数理语言学》，知识出版社，上海，1985。