语音交互是怎么一回事，我为你找到了答案

来自小鹏汽车2022/01/07

语音交互，特别是全场景语音，是智能座舱必不可少的其中一部分，对于小鹏而言，全场景语音化身为小P助手，通过OTA升级，不断提升语音交互的能力和水平，也体现了一台智能汽车的未来的可玩空间。

无论是互联网为时代，还是移动互联网时代，都是GUI交互为绝对主导，但随着AI的兴起，新的交互方式也随之热门起来。完善的智能交互，应该是多模态的，例如语音交互、手势交互，甚至通过眼神完成交互。对于当前阶段的智能汽车来说，天生就适合语音、手势等操作方式，而语音交互则更成熟，让驾驶员可以双手不离开方向盘，专注的开车，对安全驾驶来说，这很重要。

目前各大智能汽车厂商都重点投入到语音交互领域。那么好的语音交互体验，体现在哪些地方呢？我认为有3个方面：听、理解、表达。只有这3方面做好，语音交互系统才算健康。

完整的语音交互流程

听，就是能听清楚，听正确。这包括了硬件方面的回声消除、降噪，软件方面的合理的人声检测间隔，录音时长，语音识别模型等。目前主流的语音识别厂商，如国内占最大份额市场的讯飞，还有在吴恩达加盟后，识别率大幅提升的百度，还有专攻智车载领域的思必驰等，都号称识别率超过95%，但这些都是理想情况下的数据，实际环境中，由于环境的干扰等因素，会影响识别正确率。例如在车内环境中，空调风量、车内人声、风噪、胎噪，说话人口音、方言，多人声等，都会让识别率打折扣。这是整个语音交互的第一个环节，目前不少智能机器人在这个环节就让用户产生挫败感，这是入口，要让用户从一开始交互就感到快乐。

听，就像人的耳朵，这个环节没做好，拾音不正确，甚至不能拾音，那就等于人失聪。

那么，要让机器能听清、听正确，就得从源头开始做文章，这样才能保证为下一步能的语义理解提供干净的输入。

语音识别流程

首先，从最前端来说，需要至少双麦克风结合专门的DSP降噪芯片才能实现回声消除、降噪、声源定位的功能。获得相对干净的语音信号后，就需要语音识别软件进行语音到文字的转换。语音识别，从李开复提出的基于统计的无特定人语音识别开始，到现阶段的基于深度学习的方案，都早已达到商用级别。

而语音究竟如何变成文字？根据吴军《数学之美》的介绍，以中文语音识别为例子，可以简单理解为，语音经过一些列信号处理后，通过声学模型，把语音映射成对应的拼音序列，再通过语言模型，把拼音序列，转换为文字序列。语音识别系统经过大量标注预料的训练，能得到当前语音对应的最大概率拼音序列，同样也能得到当前拼音序列对应的最大概率的文字序列。

理解，就是听到用户语音，并识别为文字后，能正确理解用户表达的真实意图。目前各大厂商的语音识别，早已达到商用标准，但语义理解则还有大的进步空间，是整个智能语音交互中掉队的一环。

虽然是车载环境，但其实是一个开放域，就是说，在车上用户有可能问各种各样的问题，例如路况、天气、听歌、导航、控制车内设备、闲聊等。由于中文的复杂性，有些问题甚至是人也难以理解，就算目前备受追捧的深度学习，在语义理解领域也还没关键性突破，所以制约了语音交互的发展。目前各种智能音箱，智能助手，更多的是在特定领域的任务型对话机器人。

那么对于特定领域，机器怎么能正确识别到用户的真实意图呢？目前效果比较好的都是通过深度学习的方法对用户的话进行处理。简单来说，分为两个步骤，分别是：

领域识别：例如用户说“今天天气怎么样”，这是属于天气领域的问题。

意图识别及参数提取：上面问天气的例子，用户的真正的意图，是让机器人告知其今天的天气情况。其中隐含的参数有，日期（今天），地点（当前城市）

机器人识别到用户话语的领域、意图，及相应参数后，就可以进行具体日期的天气数据获取，并返回展示给用户。

表达，则是听清、理解正确后，怎么把结果展示给用户。通常包括UI交互、展示方式，以及语音合成（TTS，Text to Speech）。由于目前业界语义理解能力的局限，提高用户体验的更合理方式应该从交互方式上入手。虽然传统的GUI交互方式发展已经很成熟，从界面元件排布，字体字号，甚至颜色风格都有相应的成熟案例及标准，但CUI（Conversation User Interface对话用户界面，也有称为DUI、VUI）则是一个崭新的领域，没有现成的案例可以参考，更多的需要摸索和试错。此外，智能，还体现在机器不只是被动接受用户指令，还可以适当时候主动询问用户。例如，今天下暴雨了，系统判断常走的路线会塞车，则主动建议用户选择另外一条顺畅的路线。你责骂它的时候，它可以通过界面、灯光、声音等表达自己的情感。这样用户才觉得和自己交流的不是生硬冷冰冰的机器，而是有自我感受的助手。目前的智能语音产品，需要等一方说完，一方才能开始说话，或者用特定的打断词中断机器说话后，才能进行自己命令的表达。这与真实世界的对话方式是非常不同的，这也是目前语音交互让人觉得笨的原因之一。

结语：

一个语言交互系统，要称得上智能，语音合成的效果也显得很重要。目前大多数语音合成，都有比较明显的机械感，例如多音字发音不准，朗读平直，没有抑扬顿挫的情感，不会根据用户的情绪调整回复的音量、音调、音色等，让用户觉得是在跟一个机器在对话。与此相对的，智能的TTS应该是有情感的，能根据语境调整文字的朗读，而不是只有一个音调，能流利的、抑扬顿挫的表达。目前已经有厂商提供多种情感的TTS服务，而在今年5月的Google I/O大会上发布的Google Duplex技术，惊艳了大片同行，其中的全双工语音交互，非常接近真实的对话场景，其中的语音合成，也已经达到以假乱真的程度，有兴趣的同学自行搜索。

总的看来，虽然目前语音交互还存在诸多不足，但不可否认的是，它是未来发展的趋势。国内外众多巨头都跳进这个领域，企图拿到语音交互流量入口的船票。再给点时间，或许三五年后，很多日常事情，谈笑间便可解决。

语音交互是怎么一回事，我为你找到了答案

最新推荐