从方法论到世界观,小鹏如何玩转声音艺术

来自小鹏汽车2021/11/26

AI发展到今天,可能大多数人仍觉得电影《Her》中的人工智能系统「萨曼莎」是非常遥远的存在。

电影中被数百人爱上的萨曼莎幽默温柔、善解人意,虽然她没有真实载体,但拥有非常独特的声线和饱满的情绪,甚至她在情绪激动时还有真人般的气息顿挫。

回到现实,当小鹏汽车为小P更换新声音之后,也许我们会离萨曼莎更近一步。

     

       小P的新声音怎么样?

小P的新声音与常规的车载语音助手声音有着代际的差别。

它不仅像人类声音般生动自然、充满生命力,还非常细腻动听,能表达更多人类情绪。这种直击心脏的沉浸感和临场感,让用户一听仿佛就能想象到她皮肤的质感。下面是一些用户的真实评价:

车主一:就像初恋般的声音。

车主二:很有真实感,她就像就坐在副驾和我说话。

车主三:声音听着很舒服,情绪恰到好处,不会觉得腻。

另外还可以参考一个客观数据:

新声音的MOS语音质量评测得分4.49,小P是目前微软MOS得分最高的车载语音助手。

语音质量评测指标MOS(Mean Opinion Score)是一项被国际普遍认可的语音质量评测方法,它可以判断一个机器声音多大程度像真实人声。满分为5分,分数越高证明声音越完美,越令人舒适。

为什么新声音的质感能有如此巨大的提升?

小P的新声音采用了「全新一代超大规模在线神经网络引擎+小型离线拼接引擎」的技术组合。

语音合成的方式有很多种,主流方法有1.单元拼接、2.合成器、3.基于深度神经网络合成。不同技术有不同的特点,但总体来说新一代技术会比上一代更加自动化,运算力更强,生成的声音更加逼真。

前两种方法会产生机械的嗡嗡声,或者跳音这种强烈不平衡感,用户能明显感受到:它并不像人。

第三种基于深度神经网络技术合成声音是近些年突破的新技术,该模型通过大量数据和算力打磨后,可以输出无限逼近真人的声音。在这项技术之上,小P新声音在网络良好时支持24K/16Bit的超高清采样,可输出HiFi级高保真音质,这是决定音质好坏最重要的两个指标。

相比之下,旧声音只有16K,与当前市面上大部分车载产品水平相当。新旧声音对比来听,会有非常明显的差距。

      

       为什么一定是小鹏汽车,而不是别的车企?

对于整个车载语音行业来讲,小鹏汽车选择「全新一代超大规模在线神经网络引擎+小型离线拼接引擎」的技术组合,是具有重要意义的。因为目前鲜有车企选择在线技术生成声音,更没有人能把在线率打磨到97%以上。因此这是一个更前瞻也更冒险的技术尝试。

如何理解这个技术组合,需要明确「在线」和「离线」的概念。这里可以参考游戏场景:离线可以理解为像「纸牌」这种不需要上网的本地小游戏;在线则是像王者、吃鸡这样需要大量计算的联网游戏。相对应,在线技术的目标是生成更优质的声音,离线技术则是一种兜底策略。

当前通过「在线技术」生成声音的业务主要应用在智能音箱领域,汽车领域寥寥无几。原因是音箱的网络稳定性很高,行车场景常有弱网和无网的情况。如果不解决弱网无网的声音问题,体验会非常差。这种感觉就像:你在打王者,对方残血推到你家水晶,而你满血卡住了......

所以小鹏汽车为了解决用户在车内绝大多数时间都能听到通过在线技术生成的声音,自研了一系列解决网络问题的创新性落地解决方案,并且目前已向国家申报专利。

下面简单介绍五项方案:1.智能离在线融合:车机端采用了多策略融合模式,通过网络、车机负载、播报业务场景策略综合决策;2.端云融合的多级缓存:所有文本内容采用了多级缓存策略,以提升响应速度;3.智能拼接:为保证用户在弱网或无网状态下仍能收到完整在线声音,采用了动态在线转离线切换策略,以实现卡在哪里就从哪里转离线;4.智能预加载算法:小P会越来越聪明,能不断提升个性化内容播报的响应速度,对用户常用的指令反应越来越快。5.智能打断:让NGP、导航等重要内容优先播报,不让用户错过高优紧急内容,最大限度为用户提供更流畅的声音体验。

由此可见,深度神经网络技术在车载领域并不是一只温顺的绵羊,虽然它能为我们带来极优质的声音,但想要把它运用得当,价值发挥最大化,需要解决很多不曾出现的工程难题。

目前,小鹏汽车通过一系列工程解决方案,可以让它在弱网、无网的情况都能乖乖发声。根据小鹏汽车实验室数据,全新AI声音已经实现了在线率97%以上。在研发层面,这是让行业望尘莫及的水平。在体验层面,用户几乎感受不到离线声音的存在。

       

       所以,仅仅是新声音吗?

回到体验层面,用户能感受到的只是一个更真实、更优质的新声音吗?不完全是。

按照小鹏汽车的规划,未来新声音还有更多的玩法。小P不仅会拥有更多的情绪,像人类一样会欢喜、会忧愁、会羡慕、会热爱,能和人类产生更多情感共鸣,还有很多意想不到的情绪彩蛋。

小鹏汽车定调为一家科技公司?

不断提升用户体验的方式有很多,有些公司靠叠加硬件,小鹏汽车更愿意选择用软件来解决矛盾。

小鹏汽车CEO何小鹏认为:小鹏汽车在成立时有一个非常朴素的想法,希望能把智能汽车大众化、普及化。

堆叠硬件或者其他方法,其实很难短时间内靠企业自己的力量将单车成本降低,因为用户要被强制买单每辆车装配的硬件。但如果选择通过软件方式解决问题,事情就有很大转机:因为研发费用是一定的,汽车销量越大,技术成本越低,越能普惠大众。

智能化一直是小鹏汽车的重要战略选择,智能语音是非常重要的一环。虽然整个行业都认可智能化的方向,但至今没有几个车厂有勇气和能力,投入大量资源深入研究语音的整个链路。自研是非常高成本的决策,这包含了小鹏汽车对未来交互的判断。因此小鹏汽车有一套自己的坚持:

一、对用户体验绝对负责。

小鹏汽车会深入了解每个可能影响用户体验的环节,对用户体验绝对负责,而不是交给其他供应商。此前小P的新声音在线率达到了80%,组内对这个结果非常不满,直到达到97%以上才被认为达到了上线标准。

二、对产品有绝对的洁癖。

小鹏汽车一直带着工匠精神打磨产品细节,严格把握品控,绝不向用户交付半成品。以新声音为例,测试同学依据具体场景抓取了上万条TTS(语音合成),逐字逐句精细打磨,才获得了现在没有错别字和奇怪重音的体验。

三、不计成本拓展产品想象力。

作为车载语音产品的布道者,小鹏汽车正在不计成本拓宽产品想象力,深入了解语音链路的每个环节。以新声音为例,当前的神经网络模型正使用超大的数据量和匹敌智能辅助驾驶的算力来训练,只为一句更真实的声音。

至此,不难理解小鹏汽车其实不只是一家车厂,更是一家用软件定义汽车的科技公司。研发需要时间,奇点一到,别人就会知道小鹏汽车的护城河在哪。

       

      如何理解未来人工智能与人类的关系?

最后来谈谈人工智能与人的关系。

也许我们都会不同程度担心机器越来越有智慧所带来的隐患,但不可否认的是,我们同样也很好奇这件事真正来临后,会给我们的生活带来怎样的变化。因为相比于威胁,带来高效和便利是更直观的结果。

如果事态一直朝着积极的方向运转,也许在未来社会中会逐渐出现「机器公民」的概念。它们与真实人类共同维系着社会的运转,和人类保持着平等、信任的长程纽带关系,将人们从重复且辛苦的劳动中解放,帮助人们发挥更多的创造性。

当然这一切的前提都是,我们要认可机器的力量,要接纳它,重视它,信任它。而对于小鹏汽车而言,一切美好故事的开端,要从鹏友们爱上小P的全新AI声音开始。