感知语音学

[拼音]：ganzhi yuyinxue

[外文]：perceptual phonetics

研究语言感知的学科，又称言语的感知（speech perception）。语音由说话人说出，成为言语波，通过空气传到听话人耳中，经过听觉机制、神经系统而使对方理解。广义地说，这一全部过程都是言语的感知过程。听觉的研究属于生理方面，神经系统的研究属于感知方面。语言的感知研究要用间接实验来进行，和语言学、语音学有密切关系，因此成为一门独特的学科。

言语感知的系统

言语信号的感知是将一连串的语音通过连续的、从听觉到神经的感知系统来完成。由于实验手段的限制，有些理论还在假说阶段，有许多事实还得通过语音实验间接取得。对于感知的重要机制、神经系统的功能还在探索中。言语声波的刺激在耳蜗的听觉感受器中转化为听觉神经的冲动，再传递给大脑的中枢神经系统，由这个系统加以整理、分类和译码。

言语感知的过程

一般可分为 4个阶段：

（1）听觉的，②语音的，③音位系统的，④语法结构的。听觉阶段是对纯声音的感觉阶段，所接收的是语音的物理参量。它把言语波转换成为一组组按时间变化的声型，起着刺激神经的作用。这些声型包括频谱结构、基频、振幅、时长等，分别被感觉为一种语言的音位、声调、响度和快慢等，成为语音感知的阶段。它与听觉阶段紧密相联。听音人对这类音的认识，或出于习得的本能，或由于环境的濡染，辨别出各种语音信号，所感知的是一种概念模型。这一阶段感知的正确程度，因听话人的母语习惯而有差别。第3阶段由听音人根据自身熟知的语言音系，或通过学习后的理解，把所听到的语音归纳、对比而辨别出不同的特征或音位。第4阶段是感知的最高层次，有直接的和间接的两种感知效果。直接的是从声音的参量来感知，例如一个词或句子的特点可由其声音随时变的强弱、基频的变化、音节分配的快慢等而区别出词义或语义。但是，语音在连续语言中的变化很大，有些音会因受前后音的影响而变质，有的会在说快时失落(吃掉)，有时或把整词整句说得含糊，甚至有些词或被别的词或插入的咳嗽等所替代，但听话人还能根据全句全章总的感知而似乎“听到了”这些音。这个阶段有许多成分依赖于社会因素。实验证明，听话人每因自身的母语音系与所听音系的不同，造成感知上的“偏误”或者用一种似是而非的所谓“中间语”来判断、摹仿。

言语感知的实验方法

语音的声学特征和感知特征往往不相吻合。为了弄清哪些音听起来与实际声学参量相符，哪些不符，需要用听觉测验来判断、选择、分类和对比。对这类实验通常采用两种方法：范畴感知和选择适应。

范畴感知。以元音为例，元音按舌位的高低，例如从 i到a，连续渐变。尽管语音学家可以把它分为4个标准元音[i]、[e]、[ε]、[a]，或作更细的分级，但各等级之间仍有无数的过渡。从前到后各音的舌位也都是如此。所以从音质来讲，元音的变化是无限的，而从一个特定语言中具有辨义功能的音位来分，元音又是有限的。从音位的应用可以把无数的元音归纳成若干个音位范畴，因而产生了各范畴之间的音位界线。在不同语言中，由于音系不同，范畴的界线也不同。例如英语的[i:]和[ε]是两个音位范畴，而西班牙人看来只是一个。汉语中吴方言的塞音有清浊两个范畴，而在官话方言中就只归入一个范畴。

选择适应。把范畴感知的实验用比较、对比等方法来使听者作出判断。这个实验方法又分两部分：

（1）辨认，这是用人工合成出来的一系列循序渐变的语音（见言语合成），要求被试者辨认这些音的音位(不是音素)，从而找出音位界线；

（2）区分，用合成的3个音素的音作ABX实验。其中AB两音有微小差别，第3个X音则与AB中的某一个音相同，让被试者区分出哪两个音是相同的，剩下的一个音是独异的。这类的实验只有在高质量的合成技术问世以后，才能得到满意的结果。它可以用合成手段把各音的声学参量加减、变型或改变其环境来取得直接或间接的测验结果。(图1)是通过改变一个音节中的元音第二共振峰 VOT（见声学语音学）的频率和趋势来测试辅音听辨范畴的示例。

言语感知的运动理论

运动理论在言语感知的研究中，近年已被采用。它的一些假说虽然还有争议，但它能解释许多关于语言的理解、学习等方面的问题，同时对言语信息处理工程也有指导作用，因此已广为人们所注意。运动理论的基本内容是：把听话人听懂语言的过程分为几个阶段。人们听辨语音，首先是耳朵听到各音段的物理特征，成为听觉模型。然后通过一系列的处理过程（生理的、物理的、……）变成可听懂的音位。还有一种说法是：听话人所感知的音位模型，必然是他自己所能说出的音位模型。这一系列的感知过程联系到听音和发音双方面。这些复杂过程在神经系统中进行得极快，而且有相互校正的功能。这些理论通过大量的实验（包括辅音、元音和声调的感知测验）提供了根据。运动理论由于实验对象和方法的不同而有多种解释。这里介绍一种“分析—合成”的运动理论(图 2)。语音首先由听觉机制 A来分析（例如，用区别特征的理论来分析），然后在记忆中“存储”，如 B。它随即把所听到的特征送到比较机制H中和初步的音位解码机制C中备用。后者将听觉特征转换成一连串暂时译解的音位，再送到控制机制／判定机制 D，并与这个音位前面的文句混合，得到一连串的试拟音位。这一系列的试拟音位再由音系规则E转换成一套调音(发音)运动指令F。这些都送入一个合成装置 G，它把指令再转成一套听觉特征模型，来和原来所存的听觉模型在H中作比较，其差别（或错误）由判定机制来确定。如差误很小，则判定成立，就把初步拟定的音位作为最终决定。如差误大，则产生一个新的试拟音位，重复一次合成的过程。这个过程可以反复进行，直到得出最佳的判断。这套理论模型不只用来表达音位的感知运动，对于更高层次如音节、词、句等的感知，也同样可用。(图3)