智能座舱多模态交互的演化路径初探 -- 基于「第三空间」的发展视角

作者 | 张德赛、黄震、高紫薇

经历缺芯、疫情、原材料价格上涨，以及诸多外部地缘政治激荡所引发的不利影响，2022 年的中国乘用车市场在震荡中走出了完美的 V 字反弹。更加让我们感到欣喜的是，中国自主品牌以及诸多造车新势力，紧跟中国消费者需求变化，在产业融合的发展背景下，凭借智能座舱、智能驾驶等等科技感强的配置，越来越受到年轻消费者的青睐。
在我们的走访调研中发现，许多主机车在规划新车型的过程中，多模态交互是一个愈加被重视的方面，这个和我们研究各大主机厂和科技公司基于「第三空间」打造智能座舱的发现较为吻合（我们总结发现基于「第三空间」打造智能座舱一般会采用三条路径，包括」注重友好交互与服务「、」注重空间与个性化「，以及」注重互联「等）

承接之前的研究成果，本文中我们将分析智能座舱发展过程中，多模交互的意义、内容、发展现状及挑战，梳理出基于目前智能座舱和智能驾驶的座舱交互发展路径。

多模交互 vs. 单一模态的优势

所谓「模态」（Modality），是德国生理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道。我们研究认为，座舱中的人机交互内容主要通过视觉、听觉、触觉、嗅觉 4 种模态实现。那么多种模态的组合使用相较于单一模态的优势在哪里呢？

一方面多模交互可以提高交互准确性，例如单独的语音交互，不可避免遇到噪音、回声、识别不清晰等状况，而通过获取图像、眼神、表情甚至血压心率等传感器信息与语音互补，可以融合多种不同的信息源，减少误交互率。

另一方面从易用性角度，交互模态互补可通过结合各模态的优势，更便捷、更高效的为驾乘人员提供所需信息。例如在完成确定导航目的地这一动作时，传统的视觉 + 触觉交互需要结合触摸按键、输入文字、滑动屏幕或旋转旋钮来实现，而融合语音交互后，使用语音输入与屏幕选项结合的方式确定导航地点，可以大幅降低导航设置动作所需的时间。

座舱多模交互的意义：功能性和科技感

座舱多模交互的对于终端消费者而言，多模交互的意义可以从功能性和科技感两方面来概括。

功能性例如在欣欣向荣的新能源汽车领域，电量显示、续航里程、电池状态信息等使得仪表盘等传统交互方式难以应对，多样化、信息承载量大的多模交互方式逐渐成为发展趋势。此外，主动安全显示、导航、在线娱乐、智能服务等对交互技术也提出了新的需求。

科技感指在智能座舱产品外观更加酷炫外、消费者对座舱创新功能的主观感受，将很大程度上会影响新生代消费者对整车体验的感知和购买决定。通过多种模态结合，可以有效提升座舱内各场景的科技体验感，有效增强驾乘人员的出行体验。

对于整车厂、零部件厂商及科技公司而言，使汽车从制造产业向附加值更高的服务领域拓展，进行模式创新，创造更多附加值，是近年来业界不断探索的一大方向，例如通过「硬件标配 + OTA 付费升级」开发新盈利点。座舱内多模交互通过其功能丰富性与技术深度，有望成为这一方向中为车企、零部件厂商和科技公司塑造竞争力的有效着力点。

现阶段座舱多模交互内容：安全性信息和娱乐信息

根据目前的智能驾驶阶段，座舱内交互的内容不能一概而论，而需分为两类来分析：安全行车信息及娱乐信息。安全行车信息包括车况信息、路况信息、环境信息等，是驾驶人员完成行车任务的必要信息。娱乐信息包括电影、游戏等非驾驶人员，或驾驶人员在非行驶状态下进行的娱乐交互信息。通过整理目前主流整车厂针对这两部分交互内容的座舱设计，我们总结出了以下表格，用以展示各模态在现阶段座舱多模交互中的现状和挑战。

3.1 针对安全行车信息的交互技术路径

针对安全行车信息的挑战，我们看到有不同的模态结合技术路径，其中包括 A）视觉 + 语音；B）视觉 + 触觉；以及 C）语音 + 手势

A. 视觉 + 语音

语音交互的运行状态在实际应用中通常是不可见的，如果不与其他模态进行融合，很难预判发出的指令处于哪个状态。以蔚来 Nomi 为例，Nomi 通过拟人化表情形象，在进行语音交互的同时，通过视觉模态作为补充，利用 Nomi 屏幕表情增加与驾驶员的视觉联系，展现出聆听、开心、点赞等反馈，从而提高驾驶员对语音交互的陪同感与信任感。

B. 视觉 + 触觉

以小鹏车道偏离报警系统为例，小鹏 P7 打开车道辅助时，方向盘会通过抖动的方式来提示目前车辆压线，减少驾驶员在开车时低头看仪表盘的频率。

C. 语音 + 手势

以岚图追光手势控制为例，岚图追光支持左右挥动、上下挥动和前后推动 3 种动态手势及 5 种静态手势，涵盖确认、自拍、接听 / 拒接电话和播放 / 暂停等多种常用功能，结合四音区语音系统实现语音 + 手势的交互方式。

3.2 针对安全行车信息交互路径的分析：安全性和准确性

在现阶段智能驾驶等级下，驾驶员的手 - 脑 - 眼资源需集中在获取安全行车信息，而通过视觉模态获取车况信息、路况信息、环境等信息在仍将是主导交互模态，而其它模态的作用则是作为补充。因此针对安全行驶信息所使用的模态并非越多越好，而需首要考虑交互设计的安全性和准确率，例如驾驶员的视线不能够离开车辆行驶方向太久，手也需要做到尽量不离开方向盘。座舱多模交互目前在安全行车信息获取方面的瓶颈，在于日益增加的多样化任务和低手 - 脑 - 眼资源投入之间的矛盾。需要驾驶员做到在安全驾车的同时，完成例如查看剩余续航里程、寻找附近充电桩、将充电桩地址设为导航目的地这样的复杂任务。

基于这一分析，我们认为视觉 + 语音路径为目前针对安全行车信息交互的首选路径。随着视觉模态 HUD 技术、电子外后视镜和 DMS 技术的发展，驾驶员将可以在不低头的情况下获取更多的驾驶相关信息。语音交互中的可见即可说、音源定位、连续对话等不占用驾驶员手 - 眼资源的应用也在今年发布的新车型上广泛应用。根据亿欧智库发布的研究数据，车载语音识别准确率已经从 2011 年的 60% 增长至 2021 年的 98%。驾驶时的电话、音乐需求也可以通过语音模态在不过多占用驾驶员视线的前提下完成。语音系统也可以通过声纹识别，结合视觉模态感知做到身份验证，提高交互安全性。而眼动、手势等交互方式当前仍处于探索阶段，功能较为单一。

3.3 座舱娱乐信息的交互技术路径

针对娱乐信息的挑战，目前则有以下模态结合技术路径，其中包括 A）视觉 + 语音；B）视觉 + 语音 + 触觉；以及 C）视觉 + 语音 + 触觉 + 嗅觉。

A. 视觉 + 语音

以问界 AITO M7 为例，通过与 KTV 曲库 app 合作，结合影音硬件，可以使座舱化身「移动 K 歌房」

B. 视觉 + 语音 + 触觉

以理想 L9 为例，理想 L9 在副驾屏、后排娱乐屏可实现外接设备投屏，可以直接连接 Switch、手机、平板电脑投屏，化身「移动游戏空间」

C. 视觉 + 语音 + 触觉 + 嗅觉

以小鹏 G9 为例，通过视觉模态的座舱内多屏联动与氛围灯、听觉模态的四音区对话语音助手、触觉模态的音乐律动座椅、嗅觉模态的香氛切换系统打造「5d 音乐座舱」。

3.4 针对娱乐信息交互路径的分析：丰富的多维感官体验

终端用户在快节奏的移动互联网生活中，已逐步养成了碎片化娱乐的习惯，即实时的、个性化的交互体验，在座舱内娱乐场景下，这种习惯也将影响用户对座舱多模交互的期待。基于这一背景，不同于针对安全行车信息高准确率、高效的要求，消费者对座舱内娱乐信息丰富的体验需求更为关注。根据 IHS Markit 的调研结果，在随智能手机陪伴成长的新生代消费者购车关键要素中，座舱内科技配置水平成为仅次于安全配置的第二类关键要素，其重要程度甚至已超过动力、空间与价格等传统购车关键要素。

因此，我们认为视觉 + 语音 + 触觉 + 嗅觉为目前针对娱乐信息交互的首选路径。视觉模态可以通过更清晰的显示技术（例如高分辨率的大屏、联屏与投影）增加不同的交互场景；语音模态可以通过声源定位，为不同座位的乘客提供个性化的交互方式；触觉模态日渐成熟的智能表面技术使触控不再拘泥于屏幕形态；嗅觉模态个性化的气味与出香算法，这些多种通信通道 (模态) 输入，凸显座舱娱乐的智能化、科技感、个性化。

对座舱多模交互的展望

在上文中，我们根据目前的智能驾驶阶段座舱内交互分为安全行车信息及娱乐信息，来分别展开讨论和分析。

首先，针对安全行车信息交互，我们认为首要考虑交互设计的安全性和准确率，视觉 + 语音路径为目前针对安全行车信息交互的首选路径。其次，针对娱乐信息交互路径，我们认为丰富的多维感官体验是消费者关注的重点，因此分析认为，视觉 + 语音 + 触觉 + 嗅觉为目前针对娱乐信息交互的首选路径。

我们应该清醒的看到，座舱内多模交互现在仍处在其发展的初级阶段，目前各模态的交互方式往往是基于驾乘人员发起的，其流程一般是用户唤醒系统，然后向系统描述自己的需求，系统通过指令输入执行计算处理并给与反馈。简而言之，是一种基于被动交互以及 Yes/No 的交互过程。

所以，我们展望认为，多模交互的进一步发展和演化，会体现在两个方面，一是模糊信息的判断与执行，二是被动交互向主动交互的演化。

我们可以展望，随着多模交互的发展，利用多模态信息感知，比如通过视觉模态 DMS 识别出驾乘人员和面部表情、眼动特征和肢体动作后，同时结合听觉模态的语音语调信号，再加入触觉模态中座椅内传感器侦测到的驾驶员背部压力曲线分布、心率信号，不仅可以用于用户模糊意图的判断与执行，如「放一首提神的歌」，「将座椅调舒服一些」，还以结合所处场景以及对驾乘人员的感知与理解，形成确定的指令给出正确反馈，使座舱做到「感受并理解」用户疲劳或者有负面情绪，主动发起音乐、座椅律动等功能去缓解驾驶员的疲劳或者负面情绪，将交互模式变为主动式交互。

相信诸如以上的多模交互发展和演化，将给予使用者更为丰富的体验，从而进一步提升座舱的智能化程度，并更为接近概念中的「第三空间」。由此将带来的产品以及商业模式的变化，值得我们更多关注和期待！

(作者任职于佛吉亚（中国）汽车座椅业务)