如何才能使人工的语音更加人性化,获得更多的“人说话的感觉”。德国科学家正致力于把语音转换成数字,并利用计算方法寻找人工语音中不完善的地方。他们的目标是开发一个人类语言自我学习的数学模型,它可以使得任意对象被赋予任意的声音,而且听起来没有人工合成的感觉。
人类的声音会唤起想象,就像未曾谋面的电台主持人或那些只在电话中联系过的人一样,通过声音,人们会自然想象发出这一声音的人的形象。“如果此时观察听者大脑的活动会发现,自然的人的声音会引起脑部那些负责感情和联想的区域的活动。而人们听到人工语音时,这些领域保持沉默。” 德国萨尔布吕肯大学语音专家贝恩德·莫比乌斯教授介绍说。
虽然在自动应答系统中,现代的人工语音早已远离那种尖细,断续且不带口音的声音,但是对声音十分挑剔的人耳还是能听出细微的差别。当语素和语言片段组成句子时,话语中最细微的语音间隙也会立即暴露。
莫比乌斯教授目前正与“多模态计算与互动”卓越集群、德国人工智能研究中心(DFKI)的计算机和信息科学家,以及心理语言学家一起工作,致力于找出人类语音的特征,并将其融入人工语音,消除语音间隙和干扰因素。
他们根据一个人们在录音棚录制的数字化的语料库,在一定程度上找到了最小的语音部分,即所谓的“双音素”。双音素是简短的语音单元,它从一个语音片段的中间开始,到接下来的语音段的中间结束。莫比乌斯说:“我们的语言可识别45个语音和大约2000个双音素,其中每个时长大约只有100毫秒。有了这些工具,我们就能够覆盖整个语言的语音平台。”
莫比乌斯通过这样的方式把人工语音中的过渡平滑地串联起来,优化后的语言模块可以将所有可能的组合放在一起。数学的语音合成模型是独立于原始录入人的语音的,因此,它可以适用于任何一个声音的语音。未来除了通常的对话或信息系统外,该技术在医学上也有新的应用。 |