橙皮书 | 语音交互：浮躁转向务实，死磕体验价值

作者： Mr.Yu

从用户视角来感知的话，车内智能语音的体验几乎是最为直接的。而这也是芸芸众生眼中，评判智能汽车是否「智能」的重要标准之一。

相关数据显示，截至 2021 年，中国乘用车智能语音交互功能的搭载率高达 86%。所有人都看到了，优秀的语音体验已经是最具价值的产品价值属性之一，从 OEM 到供应商当然不会选择「躺平」。行业上下也一直在语音领域持续发力，在你追我赶的赛道上越跑越快。

也许是某种心照不宣，也许是早已互通有无。2022 年，在车内语音的头部玩家们身上，我们看到了行业的新风向：表现出更胜以往的务实，更关注强化核心能力来提升体验。

春节前一个忙碌的工作日下午，我们与小鹏汽车 AI 产品团队的人们聊了聊。在印证我们观察到的车内语音趋势变化的同时，想要解开以往的一些疑惑，包括但不限于：

小鹏团队为什么坚持打造可见即可说功能、并持续投入资源深耕？
从业者们为什么不像几年前那样热衷于包装概念和技术炫技了？

当语音的天花板再次抬高自己

对今天的智能座舱来说，语音已经不仅仅是人们习以为常的人机交互手段，更成为了串联起座舱功能与感知、提供差异化能力和服务的平台。这其中，一部分车厂选择了自研的道路，通过搭建符合自身定位的语音交互框架，把定义用户体验的主动权把握在了自己手中。

而这些，也是小鹏汽车一直在持续发力的。

即便还没有影响到全部用户的集体心智，素来以高水平智能化作为显著标签的小鹏汽车，也早已经通过高水准的智能语音体验和十分开放的应用生态，在市场和行业中建立广泛认知的同时，也收获了令人无法忽视的认可。

自从 2020 年小鹏 P7 上市并为越来越多人所熟知，全场景语音交互系统 1.0 下的连续对话、语义打断、可见即可说等综合体验，让小鹏的成为诸多友商追赶的目标。

还记得小鹏 G9 亮相的那段时间里，除了媒体同行和意见领袖们齐声惊呼「语音天花板」之外，我还留意到几位语音从业者的文章中，各自不同程度地对全场景语音 2.0 的新特性，尤其是全时对话功能表现出了关注。

升级后的「全场景语音 2.0」又带来了三个重点新功能：极速对话，全时对话，多人对话。在系统框架中，这三个功能都有自己的独立开关，确认打开后才能启动。

极速对话：大幅度提升的唤醒速度和响应速度，共同组成极速对话功能。据官方信息所述，从用户的语音结束到界面动画有所反应会小于 300 毫秒。在小鹏汽车的官方推文中，曾略带凡尔赛地提到了有媒体在体验小鹏 G9 时，在连续对话模式下 1 分钟内完成了 40 个以上的指令。主观体验中，结合过往的测试经验来看，我们可以毫不夸张地说，尽管拾音环境不同，无论同类车载语音还是家庭智能语音，小鹏 G9 在语音的各项反应速度上刷新了体验的认知。

全时对话：打开全时对话的开关后，语音助手小 P 会进行持续收音，任何时候都不需要通过唤醒词来作为对话的起点。绝大多数情况下，用户可以直接说出指令并得到执行。如果因为表述方式不常见、或是小 P 无法确认是对自己下指令而没有得到响应的话，用户可以在 5 秒内补充说一个「小 P」，而后小 P 就可以将刚才未响应的语音指令进行识别和执行。

多人对话：打开全时对话和多人对话之后，全时对话功能将会覆盖车内。如果车内是齐装满员的状态，每个位置的用户都可以交替或同时与小 P 进行语音交互，而不会造成互相之间的干扰。比如主驾乘员说完「打开座椅加热」，副驾随后说「我也要」就能一并落实。类似于实现一种高级别跨音区多轮对话的效果。

从语音交互技术架构到语音基础能力，小鹏坚持自研的路线策略，也给予了自身最大程度上定义产品的自由。而这也被外界认为是小鹏在座舱产品层面最不可撼动的护城河。

某种层面上来讲，语音产品几乎是最容易「踩坑」的领域。功能的推出并不是终点，甚至说不上是个节点，反而更像个起点 —— 从无到有，从存在到堪用，并不是一个概念。体验不好，用户们有限的耐心并不会允许他们多给傻傻的语音助手几次机会。

随着全车多音区识别、多人对话等功能的铺开，主驾人员已经不必再继续扮演全车唯一交互中枢的角色。具备良好的多音区识别能力，首先就对车内多音区接收和区分提出了极高的要求。

很长时间里，免唤醒的表现就像是一把双刃剑，劝退了不少有想法的产品经理：进之一分，会让车里多了一个完全「莫得感情」的话痨，用户每说一句话，都可能会收获到不明所以又不堪其扰的搭腔或误执行；退之一分，则有可能让人完全摸不着头脑，不知道车机屏幕背后的小小语音助手身在何处，到底是走神了还是「离家出走」了。

在行业普遍内卷的赛道上，不同的「赛手」们各自表现出了风格迥异的跑法：既有抢先首发再通过 OTA 优化的，也有为了保证体验谨慎打磨的，还有先「做减法」、做好一点发一点的。不管是先发制人还是步步为营，这背后的选择无关对错，因为业务部门之间的实力与决策方式各不相同。

对仍在膨胀的需求，行业的做法是 ——

在小鹏 G9 上，我们看到全场景语音 2.0 传达出一种新的画风：更高效，更随意，更方便。

这背后少不了在这场采访中，除了「用户」之外最多被提及的群体 —— 研发团队。

在对话反应速度这条赛道上的赛跑，就是个具有代表性的例子。小鹏的研发团队以行业最高水平的反应速度为目标，一边补足自身的短板，一边通过流式处理优化在线服务的反应时间。随着硬件水平的提升、算法的改进，ASR（自动语音识别技术）识别准确度得到显著提高。在用户说话的过程中，小 P 会以毫秒为单位实时预测即将提出的指令，才能在指令结束时，以迅速且流畅的反应来将语音指令落实。

而在全时对话功能的背后，小鹏团队设定了一系列几乎可以说是「自我折磨」的标准，比如全时对话的漏拒识率目标设定到了万分之几，比连续对话的标准高出上百倍……

今天我们仍然无从知晓，研发团队在该功能推出之前的时间里，到底经历了怎样的硬仗。据了解，在全时对话正式推出后，线上检测到的落地效果，比最开始设定的目标要好上许多；

「把方便带给用户，把难题留给研发。」

对谈中，受访的小鹏团队成员用一句简单的玩笑，对他们的工作理念进行了总结。

在语音体验的演化升级过程中，小鹏全自研的优势持续体现出来。看上去激进的产品策略并不意味着规划和研发的粗放。相反，和以往我们在小鹏 P7 上观察到的产品逻辑一样，背后是小鹏团队将误唤醒率、拒识率和漏识率等当做重要的考量指标，一边设定严苛的技术目标，一边以近乎偏执的追求去将这些目标一一实现。

就像对于「可见即可说」这一功能的坚持。在小鹏团队看来，作为一种高阶的语音能力，可见即可说功能很大程度上解决了用户在面对屏幕界面时，注意力和执行准确度之间的平衡问题，而无需动手。相当于把用户的意图和问题都简化为语音指令，而系统中所有的界面都成为了语音友好动作的帮助菜单。降低操作门槛和操作成本的同时，使用户对语音交互更加信任。

事实证明这是有意义的。国内相关调研机构的研究表明，小鹏车主普遍对于可见即可说功能拥有完整的认知，也更愿意在合适的场景下使用语音作为常用的交互手段。

其实，不光是小鹏，车载语音行业正在变得越发务实。

社交网络尤其是短视频平台大行其道的这些年，又有谁没看过几个跟智能汽车有关的段子？从相声贯口式的语音指令，到强调所谓的情感互动… 不得不承认，这些确实为智能汽车在社会大众中传播、建立基本认知起到了作用。

很长一段时间里，车载语音行业向外传达出来的，存在一种对于让语音助手擅长「察言观色」的热衷：恨不得每一句话都要考验 AI 的智商和情商是否在线。使用者的一句「今天有点儿热」不仅语音助手要立刻接话，懂得打开空调启动通风那只能叫基本合格，不再来几句赛博风味的嘘寒问暖恐怕都不能令人满意。

现在，让我们理性看待这个问题。

就像是「今天有点儿热」这种语句，到底应该认为是指令，还是单纯的感性化表达？表达对象到底是对语音助手，还是车上其他乘员？是应该联动车内空调等舒适功能提供服务，还是按兵不动？因为会错意进而误操作的话，会不会反而让人哭笑不得、甚至觉得不堪其扰？

过分敏感反而会给别人造成不必要的压力 —— 这不仅是人际交往的处世哲学，AI 也应该深谙于心。

时间来到 2022 年。不管是产品还是宣发，车载语音行业上下似乎达成了某种默契。我们越来越多地看到，量产车型上的语音产品变得更加重视基础能力的强化。

交互的过程越来越简短和流畅；语音助手变得越来越能「听得懂人话」，对指令的容错率也越来越高；更多地考虑到车内其他用户的使用方便，独立音区、随时打断、交叉指令等强调便利性的能力被不断强化……

借用著名的奥林匹克格言来总结一下：更高、更快、更强。

以炫技为手段的 showcase 设置对传播固然有帮助，而车厂和供应商也渐渐清醒：炫技和基础能力之间的矛盾，本质上是时髦和趋势之间的博弈。炫技不会产生传播之外的价值，能力才产生真正的价值。

小鹏团队认为，在语音产品上不应该过多炫技，长此以往会造成用户对产品预期的盲目提高，以至于进入怪圈：当品牌向用户盲目承诺得越多，用户的期待值就会越高；在实际使用中，用户的用法就越自由，越容易提出更具歧义化的问题；于是，车载语音助手遇到的边界就越大，相应面临的问题也越多，用户获得稳定体验的概率越受影响。

随着这种情况反复出现，用户对功能的信任会进入下滑曲线，乃至影响到对整车的信任。

简而言之，相当于既不容易带来实际体验价值的提升，还容易给自己挖坑。

令我们乐于见到的是，行业上下正在经历你方唱罢我登场一般地「大秀肌肉」，对核心能力与体验价值的关注更胜以往。

这是行业日趋成熟的标志。

结语

实际上，不只是小鹏汽车的团队成员，在被问到自家语音助手的终极目标时，所有受访的从业者都会指向一个方向：类人，能够胜任智能座舱语音助手所应该承担的工作。

不可否认，在之后的日子里，那些有关于车载语音的、浮躁但有趣的表达依然会存在下去。同时，在产品层面，愈发务实的做法会延续下去，用户们能够从语音交互中获得的便利体验，会越来越丰富。

因为我们知道，有越来越多的语音行业从业者，正在将「让用户有稳定使用的信任感」当做他们工作的底层逻辑。

当语音的天花板再次抬高自己

对仍在膨胀的需求，行业的做法是 ——

结语

请截图后在微信扫码参与互动