语言是怎么传递信息的?

一直搞不懂人类说话是如何传递信息的
比如说“你好”这两个字,看着我们都懂,但如果是说出来呢?
听者是凭什么判断表达的意思是“你好”而不是其他?
怎么判断听到的声音就是那两个字?
区别声音的不同有三个原因:响度、频率、音色
音色的不同由发声方式,物质材料不同而不同,这样就排除了不同人说话声音不同的问题,因为任何人用中文说“你好”我们都听得懂,但每个人说话的声音不同。
响度这个跟容易排除了。
那么只剩下频率了,频率决定音调。难道说每个字的音调都不同?这不科学呀!
那么人是凭什么判断听到的是什么内容的?

推荐  (0) | 9人关注关注
4个答案
44 0

语言的发声、传播、感知过程,是生理、物理、心理的综合过程,非常复杂。楼主提到的只是物理层面,其实心理层面在其中的作用是非常重要的,许多时候它的影响要大过物理层面,换句话说,人们对语音的感知很多时候非常不客观。

既然提到生理、物理、心理过程,那就先简单地叙述一下生理和物理环节的问题。

当我们要说话时,大脑给发音器官一系列指令,肺部推动气流冲向声带及口鼻。若发清音,即声带不振动的音时,声带不闭合,气流正常通过,在喉腔或口腔某处受到阻碍(比如汉语拼音的 j q x 就是气流在舌面上受阻,b p 就是在嘴唇处受阻),发出声音。若发浊音,即声带振动的音,那么喉部肌肉驱动软骨,拉紧声带使其闭合,气流冲过闭合声带中间的缝隙,驱动声带振动,发出声带音(大概就是一阵嗞嗞声)。声带音经过口鼻等共鸣腔调制,改变泛音强度配比,形成某种浊音。由于口腔肌肉运动很快,可以快速改变共鸣腔形状,所以我们可以快速发出一连串的浊音。

以上是发音的简单生理过程。将清音浊音根据需要连成串,说出口,传到空气中,它就是个物理问题了,如楼主所说,语音有几项要素,但不是三项,而是四项。除了音色、音高(频率)、音强(响度)之外,还有一个音长(持续时间)。语言当中除了音强可能确实不常用来区别意义之外,其它三项都常用来区别意义,只是比较少有语言同时使用这三项而已。

首先说音强一般不用来区别意义,用一个例子就可以说明。假定音强可以区别意义,一个词、一句话,大声说和小声说意思不一样,那这个世界就太混乱了。所以大多数语言中音强不区别意义。背后说悄悄话所带有的言外之意不在此列,这种情况一般算是副语言信息,因为它在语言系统里通常不具有强制性。所谓不具有强制性,就是说,我把一句正常的话说成悄悄话,不必然造成其意义的改变,如果有改变,也不能确定或预测其意义会发生什么样的改变。实际上把正常话说成悄悄话所带来的意义改变不是语言内部的因素造成的。

第二说音色,楼主对音色的理解有些狭窄。不同的人说话声不一样,那是音色的不同;同一个人,说a 或 i 或 u,听起来是不同的元音,这也是音色不同。音色并不仅仅是声带固有的特征(即人际区别),在语言中,音色变化更重要是诸如a 或 i 或 u的不同。这种不同主要取决于口腔及鼻腔通道形状的变化带来的共振特征变化。说到这里,就需要简单说一下音色是怎么产生的。

元音的音色主要来源于泛音的强度配比。这个世界上只由单纯的一个周期波构成的声音(纯音)是比较少的(类似电话的忙音),绝大多数声音都是复合音。复合音是由多个周期波叠加在一起产生的。人类语音的复合音,由一个基音和一系列泛音(或者叫谐波)构成。基音就是这一组波当中频率最低的一个,比如说150Hz。它的泛音一般是它的整数倍频率,组成一组,比如300、450、600、750Hz……这样一组波合在一起,如果它们每一个的强度都一样,或者强度比较有规律地递增或递减,听起来就还是和电话忙音差不多(只是音色上厚实一些)。但是如果我们有办法特意地加强某一个,减弱另一些,比如450Hz很强,但600、750Hz很弱,之后900Hz又很强,这样就可能形成一个特定的音色,诸如a、o之类。当我们说一个与其它元音不一样的元音,我们嘴里的舌头位置,嘴的开度大小等等肯定也不一样。这种不一样,就改变了口腔的共振特性,也就可以改变声带音中的泛音配比,从而改变音色。

看上面的图,这是我说的一句话。上半部分的横图是原始波形(紫色)和语谱图(灰黑色),下半部分是我这句话中某一瞬间的声音分析。左图是声带音(也就是没有经过口腔调整的,单纯的声带发出的声音),当中每一个小尖峰都是一个谐波,横轴是频率,纵轴是强度。可以看出,我的声带音由多个谐波组成,这些谐波从低频到高频,强度递减。中间的图是在这一瞬间我的口腔形状所决定的共振特征。声带音本来挺整齐的,但经过中间图的这条线一“过滤”,某些谐波被增强了,某些被减弱了,就“过滤”成了右边图的样子。可以看到,右边的图由左图声带音的那些小尖峰组成,但大致轮廓却是中间图的样子,高频部分的声音基本上被中间图的“筛子”给滤没了(注意中间图纵轴零点的位置,就可以理解为啥会滤没了)。只有中间图最左侧高峰在右边图里还能看到。我们听辨别人说的是 a、o、 i 还是 u,主要就是靠最左边的两个高峰。我们说话时嘴里的器官在不停地变换着位置,会使得中间图上的这个“筛子”的形状不停地变化,从而右图的输出结果也就不停地变化,于是我们就发出了一个个的元音。

我们能听出说话人是谁,主要靠左图的声带音以及右图中最左侧两个高峰之外的部分。我们能听出某人说的是什么,靠的主要是右图中最左侧的两个高峰。所以,不论是不同的人说话,还是同一个人说不同的话,都是音色变化。音色是区别意义,理解语义的重要依据,也是基本手段,各种语言都会使用音色的不同以及不同音色的组合来区别意义(每种语言都有不同的元音嘛,只是数量多少的问题)。

以上关于基音泛音的这些内容,“黑话"叫做“元音共振峰分析”,主要说的是元音音色的构成。像 b、p、f 等辅音变化,也是音色变化。但由于多数辅音是噪音,没有基频和泛音列这些成分,所以它们音色的构成和元音不太一样。我们识别辅音的方式与辅音的不同类型有关,这里就不多说了,总之它与元音一样,也属于音色变化。

第三说音高区别意义,也就是频率。说话中频率的变化主要来自声带音的高低变化,与口腔形状等这些影响音色的因素关系不大。也就是说,音高和音色变化是相对独立的,可以在时间上叠加起来,同时变化。使用音高变化来区别意义的语言也就是我们一般说的有声调的语言。我们熟悉的汉语就是个典型,妈、麻、马、骂不一样,汤、糖、躺、烫也不一样。这对于许多无声调语言(英法德等多数大语种)的使用者来说,是特别不可理解的一件事。但对于中国人来说很好理解,这里就不多说了。

第四说音长区别意义,这一点在汉语里不是,但许多其它语言里都有,比如英语、日语中都存在,词中的某个元音说长了或短了,意思就不一样了。由于汉语不靠音长辨义,所以我们学习这种类型的语言的时候,也常常在音长上有问题。

所以,再总结一下,语音的四项要素中,除了音强之外,都可以区别意义。

以上是说话的物理层面。当我们听一句话的时候,从听见到明白意思,又是一个生理加心理的过程了。

听话的生理过程是,声波经介质传到耳朵,经过外耳道到达耳鼓,推动鼓膜,鼓膜推动三块听小骨将振动传到卵圆窗,进而传进耳蝸,驱动膜迷路的基底膜,基底膜对不同频率的声音有着不同的响应方式,各种不同的方式将压力传给内淋巴液及毛细胞,毛细胞将压力信号转换为电信号,传给听神经,听神经将电信号传给大脑听觉中枢,于是我们就听到了声音。

我们的听觉对音强、音长、音色和音高都可以有敏感的反应,但是因为音强在语言传达信息的过程中不重要,又因为不同的音节之间有固有的强度比例,我们已经习惯了,所以我们在听人说话时,对音强的变化并不特别敏感。比如上图中上半部紫色的原始波形部分,其上下的宽度就是振幅,也就是声音大小,可以看出每一个字的声音大小都不太一样,有些变化还挺大的,但是我们一般并不会觉得别人说话声音忽大忽小,字字不同。

除音强之外,音高、音色、音长这些信息,我们的耳朵都会捕捉到。之后送给大脑进行分析,这是一个心理过程。
首先,语言能传递信息的前提,是使用这种语言的群体有一套约定俗成的语音符号系统用来编码信息,或者说是承载信息。也就是大家都知道“手”是“手”,“脚”叫做“脚”,如果你发明一种语言,不这样叫,也不是不可以,但是没有其它群体成员与你达成共识,你的语言推广不出去,也没用。
在整个语言社会对于世间事物和事件指称使用同一套声音信号的时候,我们就有机会通过声音来传递信息了。在社会的约定俗成之下,我们每个人都有个心理词库,当我们听到 du4 zi,可以知道这个词是存在的,我们的心理词库里有;当我们听到 pia3 xiu2,我们大约可以判断它是不存在的。当我们听到 shou3 的时候,就会想到 手、首、守……等一系列,当听到 shou3 的后面还有个 xian1 ,那么基本可以确定是“首先”了。

楼主说,“难道说每个字的音调都不同?这不科学呀!”,对,当然不可能每个字的音调都不同。同声调,同读音的字词太多了,在会话中,我们是通过上下文、话题、预设甚至说话的情景、环境来判断的。较小范围的上下文判断过程如上。大到话题层面,如果我们在谈音乐,说到 shu4 di2 可能是指“竖笛”;如果我们在谈为人处事、职场之道,说到 shu4 di2 可能是指“树敌”。这些可以帮助我们听辨或者说“猜测”对方说的是什么的条件,有时非常强大。在根本听不清对方的语音时,我们可能根据这些语言之外的条件来“脑补”缺失的信息。这种脑补过程,在字词语义这种高级层面上,依据的是我们的语言经验。而事实上,这种“脑补”从音节层面、听觉生理的层面就开始了。电话线路为了节省通道占用,将300Hz以下及3500Hz以上的频率都切掉了,而大部分人说话的基频都在100-400Hz之间,300Hz以下切除,意味着基频基本切掉了,可是我们还是能听懂对方在说什么。这部分基频信息,就是我们的大脑自动补出来的,其实我们没有真正地听到它们。

我们的大脑可以听到没有听到的声音,可以猜测出没有听清的词句,同样,也可以忽略我们的语言中不重要的声音,忽略意义不大的词句。所以说我们的语言感知其实一点也不客观,心理过程的影响是巨大的。

总结一下,语言从发出到听懂,经过了生理、物理、心理的综合过程。首先大脑将要说的意思进行语音编码,驱动发音器官发出一系列声音,这些声音利用音长、音高、音色的不同变化和组合区别意思,传到空气中,被听话的人听到,进行解码,利用同样的编码规则反查意义。当语音信号质量不好的时候,我们的大脑可以根据语言经验和其它一系列线索进行纠错,利用信息冗余进行推定(听得清时就听,听不清时那就是猜的)。最终获得了说话者传来的信息。这个过程转瞬即逝,但环节众多。任何一环有问题,都可能影响信息传达。所以,我们生活中才会有“说错了”、“没说清楚”、“听不清”、“没听清”、“听错了”、“理解错了”等诸多情况。

8 0

人对声音到底如何识别,这个问题目前科学上面是没有答案的。

说一点背景知识,人类的语音识别技术目前仍不成熟。目前计算机做语音识别的算法,仍然是提取其中的数学特征,比如做傅立叶变换之后提取频率特征,但是很明显,这样的做法就是先有什么样的数学方法,然后用在这上面试试,看效果如何。前几年小波(一种数学工具)刚出现的时候,大家分别用它去看能不能做声音识别,能不能做图像识别,等等。所以现在的识别技术虽然在不断进步,但是在我看来仍然不是本质的突破。

我想说的是,人类还没想出来人耳(脑)对声音的识别是什么样的机制,所以,楼主的问题目前木有答案~~

0 0

淋Die肉兰油英语语言文学学士

2014-08-20 17:06

【比如说“你好”这两个字,看着我们都懂,但如果是说出来呢? 听者是凭什么判断表达的意思是“你好”而不是其他?】

认知语言学关于语言理解的方面,有个颇为老旧的模型不知道现在推翻了没:Marslen-Wilson和Welsh的“集群模型”描述的是,你在听到一段离散的语音(声学信息)之后,会在你的心理词库里先激活对应的音位,你可以大致理解为所有跟“你”以及“好”同音的字词会作为候选者进行竞争,如果你不断输入声学信号以及其他的信息,那么这些候选词就会不断被淘汰,然后持续进行到最后,竞争出来的一般都是唯一候选词“你好”。但如果出现某些差错或信息残缺的情况下,就是选最符合的最适候选词,譬如你可能会以为别人说的是“您好”。

0 0

语言学概论??? 好遥远 好熟悉

查看更多

添加回答

登录 后回答问题,你也可以用以下帐号直接登录

相关问答

关于我们 加入果壳 媒体报道 帮助中心 果壳活动 家长监控 免责声明 联系我们 移动版 移动应用

©果壳网    京ICP证100430号    京网文[2018] 6282-492号    新出发京零字东150005号     京公网安备11010502007133号

违法和不良信息举报邮箱:jubao@guokr.com    举报电话:18612934101    网上有害信息举报专区    儿童色情信息举报专区