最近 BEV 网络谈论又多了，这个技术的使用确实是整个系统体验的关键所在。因为

德卤爱开车

关注

特斯拉

2022-11-30

最近 BEV 网络谈论又多了，这个技术的使用确实是整个系统体验的关键所在。因为 BEV 感知的任务本质是识别场景中的各种目标，检测路面上的车道线。这是加强了，感知在系统中的应用能力，可以减少甚至不需要基于高精地图的信息。这就是常说的，让系统看到啥是啥。特斯拉在去年的 AI Day 上提出了多摄像头融合感知的概念，也在学术界和工业界掀起了一波BEV（Bird’s Eye View）感知研究的热潮。 BEV 感知属于多传感器融合中的特征层融合策略，其核心思路是将多个传感器所生成的特征转换到统一的坐标系下，再将其合并到一起，用来完成后续的感知任务。这里统一的坐标系就是指 BEV，也就是俯视视图下的世界坐标系。在 BEV 坐标下，车身周边的空间被表示为二维网格，每个网格对应了输入图像上的一个区域。在特斯拉的 FSD 纯视觉系统中，车身四周安放了多个相机，相机的视野之间也有重叠区域，因此，每个 BEV 网格可能在多幅图像上都有对应的区域。 BEV 感知的核心任务就是，如何将来自多幅图像的特征融合到对应的 BEV 网格里。这里采用的是一种称之为交叉注意力（Cross Attention）的方法。Transformer 网络中常用的是自注意力机制，也就是通过输入数据自身之间的相关性来完成特征编码。而交叉注意力描述的的是两种不同数据之间的相关性，这里的两种数据分别是指图像坐标下的数据和 BEV 坐标下的数据。只不过 BEV 感知描述的是二维网格，BEV 感知的任务通常是识别场景中的各种目标，检测路面上的车道线。到这里，其实算是万里长城第一步，因为这只是统一了空间世界坐标系。对于语义的识别还是有一些局限性，特斯拉这一步已经完成，国内虽然已经有车企披露说加入 BEV，但事实上还比较初级，本质上他们还是在用小模型在融合异构传感器。像 Transformer 这些模块可能还没有多少车企用，自动驾驶公司毫末、轻舟有，而重要的是，有些芯片是不支持 Transformer 算法的。所以，特斯拉自研芯片是有本质原因的，就是要使用自己的网络模型。国内现在要解决的问题还是挺多的，并不是公开说上了 BEV 就能解决很多事的，不过，这是一个好的开始。

特斯拉

2022-11-30

评论 · 0

0/3

大胆发表你的想法～

相关推荐

更多

相关推荐

更多

请截图后在微信扫码参与互动