【OTA科普】全新小P声音是怎么像人声的

来自小鹏汽车2021/08/20

新一轮OTA带来的小P新声音采用了“全新一代超大规模在线神经网络引擎+小型离线拼接引擎”的技术组合。

在解释上述概念之前,我们先要知道小P的声音都是来源于一种叫做语音合成(Text-To-Speech)的技术,简单来说,就是通过计算机将文本转换成语音的过程。

语音合成技术具有悠久的历史。最早的技术有基于规则的共振峰合成,然后出现了单元拼接。这种方法就是先把词组、短语等录制成一个一个的词库单元,然后找到需要的单元拼在一起合成语音。可以想象,单元拼接的效果是单元之间是不连贯的,从而会影响到合成语音的自然度。

另一种技术是基于隐马尔可夫模型(HMM)的语音合成技术。这种方法简单来说,就是对各个发音单元进行建模,生成语音参数,然后再输出合成语音。

但这种语音合成技术最大的缺点就是音质的下降。因为第一种拼接合成方法是将真实的语音片段拼接在一起,所以保留了原始语音片断的音质。而基于HMM的语音合成方法,因为经过语音编码解码,不可避免地会造成合成音质的下降。

随着深度学习技术的不断成熟,基于深度神经网络的语音合成逐渐成为语音合成领域的主流方法。与HMM语音合成技术相比,新的技术可以利用深层神经网络强大的非线性建模能力,有效提升建模精度。

我们知道,语音合成是连续动态过程,需要考虑语义、句法、词性等信息,一段话拆分开来是句子,句子里面有词语,每个词语也有它对应的发音、词性、停顿等等。此外,自然语言中还有很多歧义的想象,比如多音字,要确定一个多音字的读音,需要通过上下文对多音字词的语义进行理解。这些文本分析都可以用深度神经网络进行处理,大大提升了效率。此外在声学层,有了深度神经网络的参与,可以更好的对语音的韵律进行建模,达到更高的自然度。

小P的新声音采用了“大规模在线神经网络引擎+小型离线拼接引擎”的技术组合,其中大规模在线神经网络引擎可以提升声音质感,突破发版限制,灵活修复问题。而小型离线拼接引擎则作为兜底策略,保证车辆在弱网环境下也能时时有回应。小鹏也是目前市面上唯一一家既使用了该技术组合输出声音,目前已经实现在线率97%,离线率3%的触发属性,目标是实现是让用户一周只听到一两次的离线声音。