【OTA科普】全新小P声音是怎么像人声的

来自小鹏汽车2021/08/20

新一轮OTA带来的小P新声音采用了“全新一代超大规模在线神经网络引擎+小型离线拼接引擎”的技术组合。

在解释上述概念之前，我们先要知道小P的声音都是来源于一种叫做语音合成（Text-To-Speech）的技术，简单来说，就是通过计算机将文本转换成语音的过程。

语音合成技术具有悠久的历史。最早的技术有基于规则的共振峰合成，然后出现了单元拼接。这种方法就是先把词组、短语等录制成一个一个的词库单元，然后找到需要的单元拼在一起合成语音。可以想象，单元拼接的效果是单元之间是不连贯的，从而会影响到合成语音的自然度。

另一种技术是基于隐马尔可夫模型（HMM）的语音合成技术。这种方法简单来说，就是对各个发音单元进行建模，生成语音参数，然后再输出合成语音。

但这种语音合成技术最大的缺点就是音质的下降。因为第一种拼接合成方法是将真实的语音片段拼接在一起，所以保留了原始语音片断的音质。而基于HMM的语音合成方法，因为经过语音编码解码，不可避免地会造成合成音质的下降。

随着深度学习技术的不断成熟，基于深度神经网络的语音合成逐渐成为语音合成领域的主流方法。与HMM语音合成技术相比，新的技术可以利用深层神经网络强大的非线性建模能力，有效提升建模精度。

我们知道，语音合成是连续动态过程，需要考虑语义、句法、词性等信息，一段话拆分开来是句子，句子里面有词语，每个词语也有它对应的发音、词性、停顿等等。此外，自然语言中还有很多歧义的想象，比如多音字，要确定一个多音字的读音，需要通过上下文对多音字词的语义进行理解。这些文本分析都可以用深度神经网络进行处理，大大提升了效率。此外在声学层，有了深度神经网络的参与，可以更好的对语音的韵律进行建模，达到更高的自然度。

小P的新声音采用了“大规模在线神经网络引擎+小型离线拼接引擎”的技术组合，其中大规模在线神经网络引擎可以提升声音质感，突破发版限制，灵活修复问题。而小型离线拼接引擎则作为兜底策略，保证车辆在弱网环境下也能时时有回应。小鹏也是目前市面上唯一一家既使用了该技术组合输出声音，目前已经实现在线率97%，离线率3%的触发属性，目标是实现是让用户一周只听到一两次的离线声音。

【OTA科普】全新小P声音是怎么像人声的

最新推荐