作者: Mr.Yu
从用户视角来感知的话,车内智能语音的体验几乎是最为直接的。而这也是芸芸众生眼中,评判智能汽车是否「智能」的重要标准之一。
相关数据显示,截至 2021 年,中国乘用车智能语音交互功能的搭载率高达 86%。所有人都看到了,优秀的语音体验已经是最具价值的产品价值属性之一,从 OEM 到供应商当然不会选择「躺平」。行业上下也一直在语音领域持续发力,在你追我赶的赛道上越跑越快。
也许是某种心照不宣,也许是早已互通有无。2022 年,在车内语音的头部玩家们身上,我们看到了行业的新风向:表现出更胜以往的务实,更关注强化核心能力来提升体验。
春节前一个忙碌的工作日下午,我们与小鹏汽车 AI 产品团队的人们聊了聊。在印证我们观察到的车内语音趋势变化的同时,想要解开以往的一些疑惑,包括但不限于:
-
小鹏团队为什么坚持打造可见即可说功能、并持续投入资源深耕?
-
从业者们为什么不像几年前那样热衷于包装概念和技术炫技了?
当语音的天花板再次抬高自己
对今天的智能座舱来说,语音已经不仅仅是人们习以为常的人机交互手段,更成为了串联起座舱功能与感知、提供差异化能力和服务的平台。这其中,一部分车厂选择了自研的道路,通过搭建符合自身定位的语音交互框架,把定义用户体验的主动权把握在了自己手中。
而这些,也是小鹏汽车一直在持续发力的。
即便还没有影响到全部用户的集体心智,素来以高水平智能化作为显著标签的小鹏汽车,也早已经通过高水准的智能语音体验和十分开放的应用生态,在市场和行业中建立广泛认知的同时,也收获了令人无法忽视的认可。
自从 2020 年小鹏 P7 上市并为越来越多人所熟知,全场景语音交互系统 1.0 下的连续对话、语义打断、可见即可说等综合体验,让小鹏的成为诸多友商追赶的目标。
还记得小鹏 G9 亮相的那段时间里,除了媒体同行和意见领袖们齐声惊呼「语音天花板」之外,我还留意到几位语音从业者的文章中,各自不同程度地对全场景语音 2.0 的新特性,尤其是全时对话功能表现出了关注。
升级后的「全场景语音 2.0」又带来了三个重点新功能:极速对话,全时对话,多人对话。在系统框架中,这三个功能都有自己的独立开关,确认打开后才能启动。
极速对话:大幅度提升的唤醒速度和响应速度,共同组成极速对话功能。据官方信息所述,从用户的语音结束到界面动画有所反应会小于 300 毫秒。在小鹏汽车的官方推文中,曾略带凡尔赛地提到了有媒体在体验小鹏 G9 时,在连续对话模式下 1 分钟内完成了 40 个以上的指令。主观体验中,结合过往的测试经验来看,我们可以毫不夸张地说,尽管拾音环境不同,无论同类车载语音还是家庭智能语音,小鹏 G9 在语音的各项反应速度上刷新了体验的认知。
全时对话:打开全时对话的开关后,语音助手小 P 会进行持续收音,任何时候都不需要通过唤醒词来作为对话的起点。绝大多数情况下,用户可以直接说出指令并得到执行。如果因为表述方式不常见、或是小 P 无法确认是对自己下指令而没有得到响应的话,用户可以在 5 秒内补充说一个「小 P」,而后小 P 就可以将刚才未响应的语音指令进行识别和执行。
多人对话:打开全时对话和多人对话之后,全时对话功能将会覆盖车内。如果车内是齐装满员的状态,每个位置的用户都可以交替或同时与小 P 进行语音交互,而不会造成互相之间的干扰。比如主驾乘员说完「打开座椅加热」,副驾随后说「我也要」就能一并落实。类似于实现一种高级别跨音区多轮对话的效果。
从语音交互技术架构到语音基础能力,小鹏坚持自研的路线策略,也给予了自身最大程度上定义产品的自由。而这也被外界认为是小鹏在座舱产品层面最不可撼动的护城河。
某种层面上来讲,语音产品几乎是最容易「踩坑」的领域。功能的推出并不是终点,甚至说不上是个节点,反而更像个起点 —— 从无到有,从存在到堪用,并不是一个概念。体验不好,用户们有限的耐心并不会允许他们多给傻傻的语音助手几次机会。
随着全车多音区识别、多人对话等功能的铺开,主驾人员已经不必再继续扮演全车唯一交互中枢的角色。具备良好的多音区识别能力,首先就对车内多音区接收和区分提出了极高的要求。
很长时间里,免唤醒的表现就像是一把双刃剑,劝退了不少有想法的产品经理:进之一分,会让车里多了一个完全「莫得感情」的话痨,用户每说一句话,都可能会收获到不明所以又不堪其扰的搭腔或误执行;退之一分,则有可能让人完全摸不着头脑,不知道车机屏幕背后的小小语音助手身在何处,到底是走神了还是「离家出走」了。
在行业普遍内卷的赛道上,不同的「赛手」们各自表现出了风格迥异的跑法:既有抢先首发再通过 OTA 优化的,也有为了保证体验谨慎打磨的,还有先「做减法」、做好一点发一点的。不管是先发制人还是步步为营,这背后的选择无关对错,因为业务部门之间的实力与决策方式各不相同。
对仍在膨胀的需求,行业的做法是 ——
在小鹏 G9 上,我们看到全场景语音 2.0 传达出一种新的画风:更高效,更随意,更方便。
这背后少不了在这场采访中,除了「用户」之外最多被提及的群体 —— 研发团队。
在对话反应速度这条赛道上的赛跑,就是个具有代表性的例子。小鹏的研发团队以行业最高水平的反应速度为目标,一边补足自身的短板,一边通过流式处理优化在线服务的反应时间。随着硬件水平的提升、算法的改进,ASR(自动语音识别技术)识别准确度得到显著提高。在用户说话的过程中,小 P 会以毫秒为单位实时预测即将提出的指令,才能在指令结束时,以迅速且流畅的反应来将语音指令落实。
而在全时对话功能的背后,小鹏团队设定了一系列几乎可以说是「自我折磨」的标准,比如全时对话的漏拒识率目标设定到了万分之几,比连续对话的标准高出上百倍……
今天我们仍然无从知晓,研发团队在该功能推出之前的时间里,到底经历了怎样的硬仗。据了解,在全时对话正式推出后,线上检测到的落地效果,比最开始设定的目标要好上许多;
「把方便带给用户,把难题留给研发。」
对谈中,受访的小鹏团队成员用一句简单的玩笑,对他们的工作理念进行了总结。
在语音体验的演化升级过程中,小鹏全自研的优势持续体现出来。看上去激进的产品策略并不意味着规划和研发的粗放。相反,和以往我们在小鹏 P7 上观察到的产品逻辑一样,背后是小鹏团队将误唤醒率、拒识率和漏识率等当做重要的考量指标,一边设定严苛的技术目标,一边以近乎偏执的追求去将这些目标一一实现。
就像对于「可见即可说」这一功能的坚持。在小鹏团队看来,作为一种高阶的语音能力,可见即可说功能很大程度上解决了用户在面对屏幕界面时,注意力和执行准确度之间的平衡问题,而无需动手。相当于把用户的意图和问题都简化为语音指令,而系统中所有的界面都成为了语音友好动作的帮助菜单。降低操作门槛和操作成本的同时,使用户对语音交互更加信任。
事实证明这是有意义的。国内相关调研机构的研究表明,小鹏车主普遍对于可见即可说功能拥有完整的认知,也更愿意在合适的场景下使用语音作为常用的交互手段。
其实,不光是小鹏,车载语音行业正在变得越发务实。
社交网络尤其是短视频平台大行其道的这些年,又有谁没看过几个跟智能汽车有关的段子?从相声贯口式的语音指令,到强调所谓的情感互动… 不得不承认,这些确实为智能汽车在社会大众中传播、建立基本认知起到了作用。
很长一段时间里,车载语音行业向外传达出来的,存在一种对于让语音助手擅长「察言观色」的热衷:恨不得每一句话都要考验 AI 的智商和情商是否在线。使用者的一句「今天有点儿热」不仅语音助手要立刻接话,懂得打开空调启动通风那只能叫基本合格,不再来几句赛博风味的嘘寒问暖恐怕都不能令人满意。
现在,让我们理性看待这个问题。
就像是「今天有点儿热」这种语句,到底应该认为是指令,还是单纯的感性化表达?表达对象到底是对语音助手,还是车上其他乘员?是应该联动车内空调等舒适功能提供服务,还是按兵不动?因为会错意进而误操作的话,会不会反而让人哭笑不得、甚至觉得不堪其扰?
过分敏感反而会给别人造成不必要的压力 —— 这不仅是人际交往的处世哲学,AI 也应该深谙于心。
时间来到 2022 年。不管是产品还是宣发,车载语音行业上下似乎达成了某种默契。我们越来越多地看到,量产车型上的语音产品变得更加重视基础能力的强化。
交互的过程越来越简短和流畅;语音助手变得越来越能「听得懂人话」,对指令的容错率也越来越高;更多地考虑到车内其他用户的使用方便,独立音区、随时打断、交叉指令等强调便利性的能力被不断强化……
借用著名的奥林匹克格言来总结一下:更高、更快、更强。
以炫技为手段的 showcase 设置对传播固然有帮助,而车厂和供应商也渐渐清醒:炫技和基础能力之间的矛盾,本质上是时髦和趋势之间的博弈。炫技不会产生传播之外的价值,能力才产生真正的价值。
小鹏团队认为,在语音产品上不应该过多炫技,长此以往会造成用户对产品预期的盲目提高,以至于进入怪圈:当品牌向用户盲目承诺得越多,用户的期待值就会越高;在实际使用中,用户的用法就越自由,越容易提出更具歧义化的问题;于是,车载语音助手遇到的边界就越大,相应面临的问题也越多,用户获得稳定体验的概率越受影响。
随着这种情况反复出现,用户对功能的信任会进入下滑曲线,乃至影响到对整车的信任。
简而言之,相当于既不容易带来实际体验价值的提升,还容易给自己挖坑。
令我们乐于见到的是,行业上下正在经历你方唱罢我登场一般地「大秀肌肉」,对核心能力与体验价值的关注更胜以往。
这是行业日趋成熟的标志。
结语
实际上,不只是小鹏汽车的团队成员,在被问到自家语音助手的终极目标时,所有受访的从业者都会指向一个方向:类人,能够胜任智能座舱语音助手所应该承担的工作。
不可否认,在之后的日子里,那些有关于车载语音的、浮躁但有趣的表达依然会存在下去。同时,在产品层面,愈发务实的做法会延续下去,用户们能够从语音交互中获得的便利体验,会越来越丰富。
因为我们知道,有越来越多的语音行业从业者,正在将「让用户有稳定使用的信任感」当做他们工作的底层逻辑。