极客汽车

极客汽车

关注

被嫌弃的 AI 语音(一)—— 不只是因为它像个傻子

环形隧道

2022-08-22

作者: Mr.Yu

最近对智能语音的意见很大。

因为我发现,家里的小爱同学似乎不那么好用了:不是每次唤醒都能成功,也不是每次都是最近的那个智能音箱回应我的呼唤;让她打开客厅的大灯,亮起来的却是头顶的卧室灯。

两个月前,我还幸运地赶上了一次米家服务器的宕机,那体验可是相当的酸爽 —— 智能家居全部趴窝,中控 App 里设备全部下线;不仅没办法使用,有的连打开都费劲。这也算是深刻体会了一次人类科技文明的脆弱。

就这次宕机事件在 GeekCar 行业社群里吐槽时,很多朋友在质疑小米为什么不准备一套本地的冗余方案。而最后大家讨论出来的结论,居然是:无解。

于是,我想到了车上的语音助手:

驾驶和居家的场景各不相同,面临的问题会有哪些异同?集度概念车提出的全离线语音,能不能 cover 得住离线状态下的操控?车载 AI 的语音能力在宣传中被一再强调,到底是营销主导的诉求,还是产品力增长点?

以及,既然都说智能语音好,为什么还是有这么多人不喜欢它

想要更多维地了解问题的全貌和本质,所以我约了来自汽车行业不同链条的朋友们,抛开偏见,一起聊聊。

为了尽量保持内容的全面和易读,这个系列将会采用还原对谈内容的方式进行呈现。不是正式的专访,交流中也会有一些我个人的观察和思考

因为涉及很多人的从业经历和个人观点,所以被强烈要求匿名,这次依然称他们为 Mr.K。

第一位 Mr.K,是一位十分以及特别资深的智能座舱产品经理,就职于某家正在造车的头部企业。我和这位 Mr.K,围绕着一系列关于智能语音的行与不行,展开了讨论。

借用一下梁文道先生《八分》节目的 slogan—— 不保证成功,不一定有用。对于从业者来说,不停止思考才更重要

以下是对谈的实录,Mr.Yu@GeekCar 是我,另一位是 Mr.K。

Mr.K:

你说这次想聊聊选题是车上的语音,或者说智能语音助手,我先想到的不是某辆车,而是两个形象。不过里面没有大家最经常提起的钢铁侠管家贾维斯。

第一个是《美国队长 2》里,神盾局长被伪装成警察的九头蛇特工堵在路上追杀时,座舱里的 AI 语音助手就体现了很多能力。十分令人印象深刻,你可以去看看那段剧情。

第二个是一部有些年头的美剧《霹雳游侠》(Knight Rider),不知道你看过没有。

《霹雳游侠》(Knight Rider)两位主人公,Michael Knight 和 K.I.T.T

Mr.Yu@GeekCar:

我知道的,麦扣嘛。

Mr.K:

对,提起这两部片子,其实是想做个对比,想说明当前的车载智能语音,和人们所期待的智能语音之间,其实还是有很大差别的。

也就是你的选题想说的,现在的车载智能语音并不智能,至少是打个引号的「智能」。因为我在车厂内部做这类产品的时候,我们也叫智能语音,但实际上它真的不是很智能

为什么这么说,因为从你们作为媒体从业者也好,我们作为汽车从业者也好,都会觉得它比较笨或比较傻,并没有达到人们期待的那种效果。

Mr.Yu@GeekCar:

为什么会这样?或者朴素地来讲,人们期待的智能是什么

Mr.K:

简单点来说,它要真的像一个助手,或者说像一个伙伴一样,在车里能够在适当的时间给我适当的提醒和建议。能够通过识别和分析个人的表情、情绪,给出一些不同的建议等等。

这样的话,你才会觉得它更贴近人的交流方式,而不是说让人直观地觉得它是机器。

所以要分类的话,刚才提到美队 2 片段里体现了很多能力,比如驾驶者生理状态的监测和主动建议、车身状态的监测、主动寻找可调动的支援、应对危机状况的主动建议、逃生路线规划等等,这些比较接近现实中能够实现的阶段。

《霹雳游侠》里的车载 AI「基特」(KITT)那个状态的话,就是高阶的人工智能了。

《美国队长 2》剧照

Mr.Yu@GeekCar:

所以《霹雳游侠》那叫科幻,贾维斯也叫科幻。但就算这样,没接触过或没有概念的人也不太分得清。

咱们聊点儿现实的: 现在行业上下是个什么水平?或者说,大家进展到什么阶段了

Mr.K:

那我就默认你体验过很多车的语音了,毕竟咱们聊天时你也说过,你之前的业务里就在跟 AI 语音打交道。

我们在做产品的时候,会找很多竞品做对标。越往后做越发现,其实现在其实现在车载语音的能力大差不差,互相之间没有太大的差别

先进的维度体现在哪?主要是语音识别的准确率,这里包含更精准的理解和执行力。

这其实是一条路线。大家都知道,以前的智能语音的识别率并不高,可能也就 80%,再到 85%。 这是个爬坡的过程,越往上越陡峭,行业和学界付出得越多

我记忆里之前科大讯飞提过,他们能做到 99.9%,可能是语音加视觉,根据你面部和嘴部的一些动作,结合语音来进行多模态的判定,提高识别的准确率。现在行业基本上能做到 95% 到 98% 的准确率,就已经非常高了。

话说回来,人跟人说话的时候还经常会 get 不到对方的准确意图,我们不能对机器要求太高,至少现在不行。

Mr.Yu@GeekCar:

说得也是。话说回来,要是想语音的覆盖面更全更广,这背后是怎么实现的

Mr.K:

其实你会发现,这里边的所谓的「人工智能」,是先有人工,再有智能。我一直很打趣地这么去说,但这就是现状。靠人去积累和收集所有能遇到想到的场景,包括我之前做的项目,还有最近正在进行的项目都是这样。

我们在做项目的时候,要把所有可能涉及到的场景、和语音语义的环境覆盖全面。在不同场景下,人可能会说什么,我们都要猜测,让它尽可能地完善和扩充

多数情况下,大家会觉得还挺智能的。但备不住一些人会去做测试和反向的推敲,乱说些什么,超出 AI 的能力范围了,就会出现一些问题。

这时候如果能出现一些兜底的反应,譬如告诉你从搜索引擎上找到的结果,这就说明做得还不错,至少这个框架是完整的。

Mr.Yu@GeekCar:

你说人工这点我很有感触。以前合作方的同事们经常加班加点地写 AI 的话术,还很苦地跟我开玩笑说,「果然有多少智能,就有多少人工 」。

那不行的反馈会是怎样?

图片来源:Unsplash

Mr.K:

有个例子很有意思。

我坐到车上唤醒出智能语音,我说「打开」,然后 AI 自己就把座椅加热打开了。

实际上我没有说具体打开什么,所以这个反应不正常,对吧?你会发现,其实各家语音设计的现状,都会多多少少出现我陈述的这类问题。可以归结于人工的程度还不够,导致智能的层面体现得不够深。

我再说一点。行业中常提到的「可见即可说」这两年很火,屏幕上显示出来的功能选项,你都可以用语音控制。我这里分享下自己的见解,你看看是不是这样。

我认为可见即可说的推出,本身是有待推敲的。

语音的目的是什么?是不是让我安心驾驶的同时,提高交互的效率?那你又让我一眼一眼地可见即可说,这本身是不是存在矛盾点?

Mr.Yu@GeekCar:

我明白你的意思。能够只占用一条人体感官通道的话,咱们没必要占用两条或者更多,人脑对感官信息的处理是有负荷上限的。

Mr.K:

当然,我并不是说相关技术没有含金量。

你知道,界面是相对固定的。AI 怎样提取界面的关键词,怎么理解指令,如何执行,这里面后台还是有一些比较厉害的算法在的,以保证不会出现误识别的尴尬,这是有技术含量的。

当然正面的期待刚才也说了,希望在驾驶的时候,AI 能够承担起作为助手的角色,可以在适当的时间提醒我,或是给出一些建议,比如路线的及时优化,或是提前给出一些天气预警、道路拥堵变化之类的提示。这是我作为一个实际的用户,真正想要的

还有个槽点就是,有时候固定句式的语音命令太多了,我真的记不住。我不知道你看过买车时的说明书没有,有些车机上甚至会有专门的帮助文档,告诉和引导你怎么用。

语音难道不应该是最自然的交流方式吗?为什么还需要这么多专门的说明文档呢?

图片来源:Unsplash

Mr.Yu@GeekCar:

对,你说的这样让我感触颇深。我也讲个自己的真实经历吧。

有一次我们的一辆评测车辆该还车了,我们去加油。但是到了加油站停稳了,人家工作人员都举着油枪过来了,我们才发现一个尴尬的问题 —— 不知道怎么打开油箱盖。

我下车按油箱盖,没有反应;

同事冲着车机喊,没有反应;

主界面和设置里,好像也没有。

我们就这样一直卡在那里。当时来加油的人挺多的,说实话我们也挺尴尬的。

后来没办法了,我用语音打开了帮助文档,在里面按照关键字搜索,找到了开启方式。

具体是怎么样的我就不说了。当时我就觉得,至少这种倚重语音又覆盖不全面的设计,真的太反直觉了

Mr.K:

对,这种就是看似很智能,实际上很傻的一种做法,而且这不够贴近我们日常的交流方式。

Mr.Yu@GeekCar:

因为人的交流方式会基于常识的积累,基于智商和情商的决策,很多时候机器是不具备的

Mr.K:

所以我们期待的功能,不如说同时也是厂家的期待。不管是叫智能语音,还是语音助手,具备你说的这些才算是贴点边儿。

现在所谓的这些叫法,其实有点类似于厂家宣传智能驾驶。什么叫智能驾驶?其实这件事本身就很有意思。

现在正确的叫法,应该叫做「智能辅助驾驶」,一定要突出辅助这两个字。厂家愿意叫智能也行,但实际上它就是辅助驾驶,千万不要说自动驾驶

所以语音的宣传也很类似,你不要说人工智能语音本身的概念,在产品的呈现上,它就是普通的语音助手。

Mr.Yu@GeekCar:

对,其实现在厂商在宣传的方面已经相对收敛了。

就我的观察来说,在 2016 年到 2018 年的时候,是一个 AI 概念在全社会的泡沫期。消费电子也好,或是技术厂商也好,都在向社会大众传达一种期望:我可以完全地去依赖人工智能。

一个非常普遍的点就是,人人可以弄个智能音箱放在家里,它不仅能够控制智能家居电器,能查询和放歌,厂家甚至会告诉你,完全可以把「它」当做家里的一口人,你可以有一些情感的投入和互动。

但是事实证明,最后这点完全是做不到的。我也觉得,厂家不能拿一些非常不典型的案例,当做语音交流能力的普遍体现。

回到车上也一样。你提了一辆新车,跃跃欲试地想要试试厂家宣传的智能语音。但实际上,这是个互相磨合的过程**,在一到两个月的时间里,你慢慢熟悉 AI 的能力边际,它试着学习你的使用习惯。这个过程会伴随着期待值的下降,尤其当你发现 AI 的实际能力跟你之前的期待有所出入的时候,你跟 AI 语音的交互频率也许会上升,但总体还是会下降**。

这个阶段过去之后,才真正可以称做是「使用体验」的开始。

不一定保证正确,但我一直是有这么一个观察的,包括一些行业调研也证实了我的看法。

Mr.K:

你说得对。用户跟语音交互其实是有个潜在的期待值在起作用的,任何时候都是。

如果能够准确响应了,就还 OK。一旦没有准确响应或者执行,就进入了很典型的逻辑:你觉得它不好用,或者干脆是很傻。

图片来源:Unsplash

Mr.Yu@GeekCar:

对。如果准确率能达到十成,你觉得很 OK;能达到八成,你会觉得「嗯,还行」。低于八成的话,就跟「好用」一点儿边儿都不沾了。这么多年行业没少在这方面下功夫,也才发展到了我们今天看到的样子。

我还可以举个例子。比如有一次,我在卧室让智能音箱开灯,我要去冲奶粉。正常情况它会打开客厅的大灯,但就有那么一两次,亮起来的是卧室灯,而且不是预设好的低亮度。那一刻,我们家人类幼崽在小床里睡得正香,随时可能被惊醒。

然后我一下就慌了,我赶紧让它关灯,但这个过程是很慢的。可能是我语速快了一些,智能音箱没有识别到。其实后来想想,那一刻我不如直接去按掉电灯的开关。

这里边会有一个逻辑 Bug。我们去发布指令的时候,或者说跟智能语音交互的时候,理想状态当然是一个相对稳定、流畅、平衡的正常状态,也希望获得正常的反馈

一旦跳出理想环境,又进入比较紧急的状态,影响了你的语速和语气,AI 也没有落实,这时候的观感和体验都会很差,甚至让人抓狂。

Mr.K:

你说得很对,体验确实会受到影响。

其实车里最常涉及到的几个语音交互场景,我简单说一下:导航、播放、空调,这三个是最常用的,有实际数据支撑。别看场景简单,这里面也会存在一些 bug。

比如最常用的导航,我不知道你有没有遇到过。我让导航规划路线,只有一个路线,然后语音会问我,「第几个?」。

大哥了,你只给我规划了一条路线,还让我选择第几个?交互能不能不要这么复杂?不要这么走形式?

Mr.Yu@GeekCar:

至少说明人家的框架是完整的。

Mr.K:

对,就是框架设计的体现。然后延展到行车过程中,如果根据实时路况,系统发现了更优的路线,是不是应该及时告诉用户,有一条更优的路线可以节省 5 分钟、10 分钟,你要不要走?

这时候用户自然会有判断,对吧?

包括我现在说的也是一样的,你不说的话就只停留在导航界面上。行车过程中语音也没有主动提醒我,是否存在更优的路线。其实这个不难做到。

不夸张地说,如果这种主动性的良性提醒能够实现,行业当前的语音体验起码能够提升 50% 以上。这才是更加贴近「智能」这个概念的状态,当然感官上也会更好一些

Mr.Yu@GeekCar:

明白。就像 2016 年荣耀推出融入了很多 AI 能力跟场景的手机时,有个我印象很深的点:你在票务平台预订了电影票,然后当你在快开场的时候走到影院附近的话,它会直接弹出来你的取票码和二维码,直接走到取票机边上掏出手机就可以取票。当然,这个能力我是后来在华为的智能手机上体验到的。

这功能很出彩吗?说实话,也就还行吧。

就是这些看似不起眼的便利和满足感一点点地积累起来,真的是量变积累到质变,会让人对一款产品,一个品牌产生认同感。就像能带给日常生活幸福感的,不会是家里那些昂贵的大件,而是很多很方便的小电器,能够满足你一些不那么核心的需求。

可能扯远了,这是我对体验的一点儿理解。

2016 年 12 月发布的荣耀 Magic

Mr.K:

没关系,你的想法还挺细致的。

回到咱们的问题上,可以引入类似马斯洛金字塔的方法,按照对指令的响应效果来划分。

咱们之前也讨论过,有些语音也好,其他体验也好,从框架上来讲就是压根儿没做完。主要体现在,你说出指令之后,系统没有反应,也不给你反馈,然后这一轮交互就这么过去了。

好一点儿的可能是,系统判定理解了,但执行不了,然后它通过搜索引擎来介入。这样也算是听懂了,但没办法以你想要的方式来进行反馈。至少比刚才那个要更好一些,也算是一种兜底的做法。会让人觉得,心理预期没有达到,至少系统在尝试帮我解决这个问题。

然后更好一些的就会直接跟你说,我可能现在还没有办法帮你实现,不过我会努力提升。这是我在日常工作中见到最好的,也是最多见的。或者说你有没有见过比我说的这种再好一些的表现?

Mr.Yu@GeekCar:

更好的也许没有,更奇葩的我倒是可以分享一个。

有的 AI 没法响应需求,但它不会直截了当地说「我不行」,而是告诉你「我就不」,然后开始恶意卖萌。

说实话,这种「赛博傲娇」的嘴脸很让人讨厌。咱们原本就是简单地一来一回,你告诉我你做不到,至少这样是真诚的。你作为工具型的产品,既不聪明也不真诚,那可真叫人喜欢不起来

所以在落实语音指令这点上,你有没有比较认可的案例?

Mr.K:

我之前在工作中体验过北汽极狐的一个功能是这样,当你再次打开空调的时候,默认还是上一次的温度和风量,这很常见。而如果启动状态下你再说一次打开空调,AI 会告诉你,当前空调已经打开了,然后问你是觉得冷了还是热了?

它会根据你发出指令的合理性,做一个理解,进而判断你的意图,或者说考虑你的感受。这点我就觉得很好,因为体验的颗粒度提升到了一个更细的程度

Mr.Yu@GeekCar:

特别理解。

被你说得好像一下子到了做 SPA 时的场景,为你提供服务的工作人员会问你,力度是不是合适?重了还是轻了?多数情况下,顾客会回答「OK」或者「合适」。

其实这句话本身的意义不大,因为要是不合适的话,你就直接告诉人家进行调整了。但是被问一下,会让你觉得还行,服务是到位的,自己的体验是受到重视的。

那你认为全部依赖语音的做法可行吗?现在语音交互在车内的比重在增大,我们也能看到一种去物理按键化的趋势,把操控和交互分摊到语音、触控等方式上

图片来源:Unsplash

Mr.K:

这是值得讨论的,我先不说结论,咱们先列出几个点。

第一个,我想调整音量大小,或者打开雨刮器。用拨杆或者方控上的按键,零点几秒就可以解决了,为什么还要走「唤醒 —— 响应 —— 发出指令 —— 执行 —— 告知」这么冗长的流程呢?

这是我想说的第一点,最起码现在来讲,物理按键还是不可取代的。

第二点,物理按键和虚拟按键,本质上都是按键。大面儿上来讲只是一个摸得到、一个摸不到的区别。你们之前在文章里讨论过,物理按键有很强的的反馈作用,而且简单易上手。

Mr.Yu@GeekCar:

还能盲操。

Mr.K:

对,还能盲操,实现操作的去视觉化。

近年来行业也在探索,比如在屏幕内增加振子,来为触控增加震感反馈,去模拟实体操作的感觉,也是 OK 的。比如奔驰,再比如还没正式发布的 NIUTRON 自游家 NV。当然,可能因为涉及成本的增加,或者技术复杂程度的原因,还没有大范围推广。

所以,我认为最值得期待的,还是语音和其他方式的结合,形成多维的交互方式,在安全、高效和便利中间取得平衡

NIUTRON 自游家 NV 座舱
图片来源:NIUTRON 官网

Mr.Yu@GeekCar:

那为什么语音在这几年逐渐势大呢?甚至出现了完全去物理按键的设计,而且这种现象还有抬头的趋势

Mr.K:

首先,我认为是为了迎合大众的口味,这点不容否认。

为什么?因为新能源车、智能座舱,本身就代表了一种新的科技的具现化,或者说给人感觉是很多新技术的综合体。所以座舱里要有一些以往没有的技术,来跟车本身的定位去搭配。

其次,这是一种趋势。一家做了,两家做了,很多家都做了,行业就是这么发展的,厂商之间是存在互相影响的。

第三,刚才提到物理按键和语音的操作,咱们必须承认是各有优劣势的。人在驾驶过程能够自己判断,用哪种交互更加符合安全驾驶的大前提、执行效率更高

Mr.Yu@GeekCar:

为什么这么说?

Mr.K:

因为大部分的车厂都是非自研的。所谓的非自研,引申出来就是都要用到 Tier 1—— 对,又提到 Tier 1 了。宏观来看,很多厂家并没有能力去做语音技术层面更深入的开发。

做不到怎么办?那就只能随大溜了。所以你说,车厂是真的想做好语音吗?我认为是有心,但现实往往是无力。所以更多的是,大家都停留在一个差不多的水平上。并不是说好或者不好,而是代表了一种行业现状。

你可以去剖析一下现在 OEM 车厂的规划和营销,大层面上大家的想法都差不多。因为规划决定了这个车要有什么;营销决定了这个车怎么卖给用户,怎么向用户传达期待

所以就要提到决策机制了。中间的研发其实很难的,有些话语权的话,研发还能有些空间;要是没有话语权的话,又处在 KPI 压力之下,能不能做出好东西一下子就变得不确定。

Mr.Yu@GeekCar:

所以自研就变得很重要。

图片来源:Unsplash

Mr.K:

对,可以参考小鹏汽车。

如果有人说,小鹏的车载语音处于行业顶尖的水平,相信有一定客观认知的人都不会反对。

Mr.Yu@GeekCar:

那你怎么看待通过语音炫技这件事?有没有可以拿出来说的?

Mr.K:

好问题,我可以简单举个例子。

第一,就像前面说的,我认为可见即可说也是一种炫技。也可能我还没有领会这类能力的真正价值,所以这里先打个问号。

第二,我跟车载语音助手连续说,打开空调、打开车窗、打开天窗、打开座椅加热…… 这就是炫技,正常用户没人这样交互的。当然,真正的连续对话和炫技之间,还是要分清的

所以一些功能的实用价值不大,又被拿出来当做重点宣传的话,我认为是不合适的。

Mr.Yu@GeekCar:

我大概知道你说的是哪些了。

所以,我会认为这是一个很巧妙的心理层面的骗局。 因为拿出 Demo 来给大家看的,一定是表现最好的。或者也可以说,是通过设计之后,表现最好的

用户在媒体或者社交网络上看到这些的时候,会觉得很牛,会将自己代入进去。但是买回来自己用的时候,还能不能达到类似的效果?还真的要打个问号了。

如果说这时候品牌过分地传达了期待,是不是不合适的?

图片来源:Unsplash

Mr.K:

你不如这么看,营销和宣传这两样东西,无形中肯定会带着夸大的手法,这也很朴素地符合人们对营销的基本认知,对吧?

如果宣传最终传达出来的能量小于实际效果,这营销就太保守了,是要扣分的

如果说传达给大众合理的期待,又不让人觉得浮夸,这个是很难的。当然,这肯定是最合适的。

但咱们讨论的炫技不在这里面,炫技更多是为了制造话题点,为了宣传而宣传。短视频平台上疯传的让车跳舞的段子就属于这种。

Mr.Yu@GeekCar:

说到过度宣传,我就会想到所谓的「情感交互」。前几年很多 AI 大厂都在热炒这个概念。

Mr.K:

强调情感的前提,是你得「像人」。如果 AI 能够做到有来有回地跟我交流,这样会让我产生依赖,但那更多是对于工具属性产品的信任,而不是情感。

所以你提到这个话题,我能最直接想到的是语音语调、说话方式是不是像人,而不是我真的要跟算法推心置腹

Mr.Yu@GeekCar:

对,我想到英语环境里经常提到的一个词,叫做「可信赖的」。

刚才说过,因为人类之间的对话,是基于智商和情商、表达能力和决策能力、情绪、常识、博弈等等这些要素综合影响的结果。

退一万步来讲,现阶段我们能接触到的 AI 语音,所能够支持的对话形式,大部分是你说一句我回一句的回合制。光这一点,想去进行所谓的「情感交互」基本上就毙了

所以我会认为,现阶段来说,跟 AI 语音之间的对话,最多只能算个带有明确目的性的交互的出入口

Mr.K:

对,就像你说的,语音只是个出入口。

但实际上背后是有一个类似大脑的机制来支撑的。如何设计、如何做策略,其实还是很关键的,也很复杂,也许它的复杂程度不亚于辅助驾驶的算法。

随着产品的不断完善,以后肯定会有更高级的技术融入进来,那就是以后的事情了。

Mr.Yu@GeekCar:

你刚才提到了支撑两个字,我觉得特别到位,对今天的对谈来说是个圆满的总结了。

语音也好,或者其他交互方式的智能也好,本质上还是为体验和安全做好支撑,而不是喧宾夺主

Mr.K:

没错,将来或许能够实现,只是现在来说还不够格。

用你们媒体行业经常说的一句话,咱们拭目以待吧。

写在最后

感谢看到最后的每一个人,这次的内容又不短。

语音是个太简单又太复杂的事情。

简单,就简单在绝大多数用户只会关心它好不好用,自己之后是不是愿意用下去,而不会深究更多。

复杂,就复杂在哪怕是微小的进步,反应速度快了几百毫秒、对特定嗓音的识别率高了那么百分之几,从业者们付出的努力都是不容忽视的。复杂到行业上下一边不断试错,一边探索体验的边界。

对于这些问题,我在 Mr.K 这里得到并不是答案,而是代表了其中一位行业者基于自己经验和思考得出的结论。

我想,我更期待在下一位聊起这些的 Mr.K 身上,听到些不一样的声音。

图片来源:Unsplash
本文著作权归作者所有,并授权 42 号车库独家使用,未经 42 号车库许可,不得转载使用。

评论 · 0

0/3
大胆发表你的想法~
评论