计算语言学

[拼音]：jisuan yuyanxue

[外文]：computational linguistics

语言学的一个分支，专指利用电子计算机进行语言研究。

电子计算机问世不久，人们便考虑到它的非数值运算问题，并选中机器翻译作为第一个非数值运算的课题。这个选择可以说开辟了计算机非数值应用无比广阔的领域，许多语言学理论和方法以及许多技术成果都是在它的基础上或启发下产生和解决的。例如，文字的输入输出设备、大存储装置、言语识别和文字识别等课题均在机器翻译研究初期便已提出。但是由于机器翻译是一种比较高级的人工智能，至今尚未能真正或广泛付诸应用，而计算语言学的其他方面却得到了很大发展。计算机情报检索在60年代末期便已实现，现在通过卫星已可进行洲际检索。利用计算机进行言语统计已成常事，在统计分析的基础上编成了一大批正序、逆序词表和频率词典，建立了各种语料库，促进了计算风格学的诞生。同时还编制了大量索引和逐词索引。大字符集的信息处理问题已得到一定解决，这为中文和其他东方语文的信息处理提供了方便条件。计算机辅助教学日趋成熟与普遍。作为人工智能一个重要分支的自然语言理解也已奠定了基础，与此相联系的文字自动识别、言语识别和言语合成等项语言工程也在蓬勃开展。计算机在实验语音学、方言研究、语法分析和词典编纂等方面也得到了越来越广泛的应用。

计算语言学之所以有这样长足的发展，是由于社会的需要。当今世界处于新技术革命时代，一个以电子计算机为基本工具的现代化语言文字信息处理系统正在世界范围内形成，这标志着高度发展的信息化社会的到来。计算语言学正是为担当这一历史使命而诞生和发展的。

计算语言学发展到今天，按其工作性质和复杂程度，可以归结为以下3个方面：

（1）自动编排：这是计算机最擅长的工作，也是计算语言学中最成熟的部分。对各种语言素材进行统计、分类、排序，编辑各种词表、索引和词典，建立语料库、术语数据库等等，已经得到广泛运用。由于这些技术已经相当成熟，因而已有现成的软件包提供服务。

（2）自动分析：这是一种较复杂的语言自动处理。这种自动分析系统是根据事先存入计算机内的特定语言信息进行工作，目的在于得到预先规定的结论，例如让计算机查词典或进行语法测试，均属此类。若结论有误，就证明词典或语法不够完备，需要对原先的数据或规则加以修订或补充。这类系统一般尚处于试验研究阶段。

（3）自动研究:这是一种更复杂的语言自动处理。这种自动研究系统是根据计算机内存储的一般语言信息进行工作，借助统计、比较、类推等手段，得出自己推断的结论。人工智能研究中的某些自然语言理解系统正在朝这方面努力，但目前还没有比较成熟的研究成果。

计算语言学可以说是计算机和语言学相结合的产物。这种结合已经得到丰硕的成果，除了上面说到的那些应用课题以外，还表现在对语言学理论和方法的影响上。语言的定义扩展了:语言已不仅是人类重要的交际工具，而且也是人机之间的交际工具。为了满足计算机加工的要求，计算语言学最大的特点就是要求语言的形式化，因为只有形式化，才能算法化、自动化。根据这项要求，近年来制定出一系列面向语言信息处理的自动分析方法，其中包括预示分析法、从属分析法、中介成分体系、优选语义学、扩充转移网络、概念从属论等等。这些自动分析方法，已在机器翻译和自然语言理解的系统中得到应用，并证明有效。语言的形式化是分层进行的。语法的形式化相对来说比较简单，人们已做了不少工作；语义的形式化则是一个复杂的问题，人们进行的工作还不多。而语义形式化问题解决得好坏，将大大影响语言自动加工的成效。因此，继续发掘行之有效的形式结构分析方法和语义分析方法，研究它们之间的关系，以及探讨它们在不同系统中各自使用的限度，这是计算语言学中的重点研究课题。

第五代计算机要求人们赋予它听觉（识别口语）和更强的视觉（自动识别文字），赋予它说话能力（合成言语）和听写能力（语音打字），同时还要求人们赋予它理解自然语言并把某种（或多种）自然语言翻译成另一种（或多种）自然语言的能力。这样，计算语言学工作者又需要提供各种物理参数、语言概率性等方面的数据和各种应用软件，以便同有关的专家、工程师一道共同解决为计算机增添“翅膀”这个重大课题，使之真正成为“万能的智能机器”。

完成上述任务，必须靠整个语言学界的努力和合作。尽管面向机器的语言学有其独特性，在许多方面都要另起炉灶，但是实践证明：传统语言学的基础雄厚与否对解决一些新任务有很大关系，例如传统的英汉对比语言学研究得好，就会给英汉机器翻译提供很多方便。从这个意义上讲，计算语言学只有很好地吸取传统语言学的成果并加以改造，才能得到迅速发展。