
德卤爱开车
关注
特斯拉
2022-11-30

最近 BEV 网络谈论又多了,这个技术的使用确实是整个系统体验的关键所在。
因为 BEV 感知的任务本质是识别场景中的各种目标,检测路面上的车道线。
这是加强了,感知在系统中的应用能力,可以减少甚至不需要基于高精地图的信息。
这就是常说的,让系统看到啥是啥。
特斯拉在去年的 AI Day 上提出了多摄像头融合感知的概念,也在学术界和工业界掀起了一波BEV(Bird’s Eye View)感知研究的热潮。
BEV 感知属于多传感器融合中的特征层融合策略,其核心思路是将多个传感器所生成的特征转换到统一的坐标系下,再将其合并到一起,用来完成后续的感知任务。
这里统一的坐标系就是指 BEV,也就是俯视视图下的世界坐标系。
在 BEV 坐标下,车身周边的空间被表示为二维网格,每个网格对应了输入图像上的一个区域。在特斯拉的 FSD 纯视觉系统中,车身四周安放了多个相机,相机的视野之间也有重叠区域,因此,每个 BEV 网格可能在多幅图像上都有对应的区域。
BEV 感知的核心任务就是,如何将来自多幅图像的特征融合到对应的 BEV 网格里。
这里采用的是一种称之为交叉注意力(Cross Attention)的方法。Transformer 网络中常用的是自注意力机制,也就是通过输入数据自身之间的相关性来完成特征编码。
而交叉注意力描述的的是两种不同数据之间的相关性,这里的两种数据分别是指图像坐标下的数据和 BEV 坐标下的数据。
只不过 BEV 感知描述的是二维网格,BEV 感知的任务通常是识别场景中的各种目标,检测路面上的车道线。
到这里,其实算是万里长城第一步,因为这只是统一了 空间世界坐标系。
对于语义的识别还是有一些局限性,特斯拉这一步已经完成,国内虽然已经有车企披露说加入 BEV,但事实上还比较初级,本质上他们还是在用小模型在融合异构传感器。
像 Transformer 这些模块可能还没有多少车企用,自动驾驶公司 毫末、轻舟 有,而重要的是,有些芯片是不支持 Transformer 算法的。
所以,特斯拉自研芯片是有本质原因的,就是要使用自己的网络模型。国内现在要解决的问题还是挺多的,并不是公开说上了 BEV 就能解决很多事的,不过,这是一个好的开始。
特斯拉
2022-11-30
评论 · 0
0/3
大胆发表你的想法~
相关推荐

德卤爱开车
赞
评论

德卤爱开车
赞
1

德卤爱开车
7
3

德卤爱开车
1
评论

德卤爱开车
1
评论

德卤爱开车
赞
评论

德卤爱开车
1
评论

德卤爱开车
1
评论

德卤爱开车
8
7

德卤爱开车
赞
评论
更多
