语音交互是怎么一回事,我为你找到了答案

来自小鹏汽车2022/01/07

语音交互,特别是全场景语音,是智能座舱必不可少的其中一部分,对于小鹏而言,全场景语音化身为小P助手,通过OTA升级,不断提升语音交互的能力和水平,也体现了一台智能汽车的未来的可玩空间。

无论是互联网为时代,还是移动互联网时代,都是GUI交互为绝对主导,但随着AI的兴起,新的交互方式也随之热门起来。完善的智能交互,应该是多模态的,例如语音交互、手势交互,甚至通过眼神完成交互。对于当前阶段的智能汽车来说,天生就适合语音、手势等操作方式,而语音交互则更成熟,让驾驶员可以双手不离开方向盘,专注的开车,对安全驾驶来说,这很重要。

目前各大智能汽车厂商都重点投入到语音交互领域。那么好的语音交互体验,体现在哪些地方呢?我认为有3个方面:听、理解、表达。只有这3方面做好,语音交互系统才算健康。

完整的语音交互流程

听,就是能听清楚,听正确。这包括了硬件方面的回声消除、降噪,软件方面的合理的人声检测间隔,录音时长,语音识别模型等。目前主流的语音识别厂商,如国内占最大份额市场的讯飞,还有在吴恩达加盟后,识别率大幅提升的百度,还有专攻智车载领域的思必驰等,都号称识别率超过95%,但这些都是理想情况下的数据,实际环境中,由于环境的干扰等因素,会影响识别正确率。例如在车内环境中,空调风量、车内人声、风噪、胎噪,说话人口音、方言,多人声等,都会让识别率打折扣。这是整个语音交互的第一个环节,目前不少智能机器人在这个环节就让用户产生挫败感,这是入口,要让用户从一开始交互就感到快乐。

听,就像人的耳朵,这个环节没做好,拾音不正确,甚至不能拾音,那就等于人失聪。

那么,要让机器能听清、听正确,就得从源头开始做文章,这样才能保证为下一步能的语义理解提供干净的输入。

语音识别流程

首先,从最前端来说,需要至少双麦克风结合专门的DSP降噪芯片才能实现回声消除、降噪、声源定位的功能。获得相对干净的语音信号后,就需要语音识别软件进行语音到文字的转换。语音识别,从李开复提出的基于统计的无特定人语音识别开始,到现阶段的基于深度学习的方案,都早已达到商用级别。

而语音究竟如何变成文字?根据吴军《数学之美》的介绍,以中文语音识别为例子,可以简单理解为,语音经过一些列信号处理后,通过声学模型,把语音映射成对应的拼音序列,再通过语言模型,把拼音序列,转换为文字序列。语音识别系统经过大量标注预料的训练,能得到当前语音对应的最大概率拼音序列,同样也能得到当前拼音序列对应的最大概率的文字序列。

理解,就是听到用户语音,并识别为文字后,能正确理解用户表达的真实意图。目前各大厂商的语音识别,早已达到商用标准,但语义理解则还有大的进步空间,是整个智能语音交互中掉队的一环。

虽然是车载环境,但其实是一个开放域,就是说,在车上用户有可能问各种各样的问题,例如路况、天气、听歌、导航、控制车内设备、闲聊等。由于中文的复杂性,有些问题甚至是人也难以理解,就算目前备受追捧的深度学习,在语义理解领域也还没关键性突破,所以制约了语音交互的发展。目前各种智能音箱,智能助手,更多的是在特定领域的任务型对话机器人。

那么对于特定领域,机器怎么能正确识别到用户的真实意图呢?目前效果比较好的都是通过深度学习的方法对用户的话进行处理。简单来说,分为两个步骤,分别是:

领域识别:例如用户说“今天天气怎么样”,这是属于天气领域的问题。

意图识别及参数提取:上面问天气的例子,用户的真正的意图,是让机器人告知其今天的天气情况。其中隐含的参数有,日期(今天),地点(当前城市)

机器人识别到用户话语的领域、意图,及相应参数后,就可以进行具体日期的天气数据获取,并返回展示给用户。

表达,则是听清、理解正确后,怎么把结果展示给用户。通常包括UI交互、展示方式,以及语音合成(TTS,Text to Speech)。由于目前业界语义理解能力的局限,提高用户体验的更合理方式应该从交互方式上入手。虽然传统的GUI交互方式发展已经很成熟,从界面元件排布,字体字号,甚至颜色风格都有相应的成熟案例及标准,但CUI(Conversation User Interface对话用户界面,也有称为DUI、VUI)则是一个崭新的领域,没有现成的案例可以参考,更多的需要摸索和试错。此外,智能,还体现在机器不只是被动接受用户指令,还可以适当时候主动询问用户。例如,今天下暴雨了,系统判断常走的路线会塞车,则主动建议用户选择另外一条顺畅的路线。你责骂它的时候,它可以通过界面、灯光、声音等表达自己的情感。这样用户才觉得和自己交流的不是生硬冷冰冰的机器,而是有自我感受的助手。目前的智能语音产品,需要等一方说完,一方才能开始说话,或者用特定的打断词中断机器说话后,才能进行自己命令的表达。这与真实世界的对话方式是非常不同的,这也是目前语音交互让人觉得笨的原因之一。

结语:

一个语言交互系统,要称得上智能,语音合成的效果也显得很重要。目前大多数语音合成,都有比较明显的机械感,例如多音字发音不准,朗读平直,没有抑扬顿挫的情感,不会根据用户的情绪调整回复的音量、音调、音色等,让用户觉得是在跟一个机器在对话。与此相对的,智能的TTS应该是有情感的,能根据语境调整文字的朗读,而不是只有一个音调,能流利的、抑扬顿挫的表达。目前已经有厂商提供多种情感的TTS服务,而在今年5月的Google I/O大会上发布的Google Duplex技术,惊艳了大片同行,其中的全双工语音交互,非常接近真实的对话场景,其中的语音合成,也已经达到以假乱真的程度,有兴趣的同学自行搜索。

总的看来,虽然目前语音交互还存在诸多不足,但不可否认的是,它是未来发展的趋势。国内外众多巨头都跳进这个领域,企图拿到语音交互流量入口的船票。再给点时间,或许三五年后,很多日常事情,谈笑间便可解决。