德卤爱开车

德卤爱开车

关注
特斯拉

2022-11-30

最近 BEV 网络谈论又多了,这个技术的使用确实是整个系统体验的关键所在。 因为 BEV 感知的任务本质是识别场景中的各种目标,检测路面上的车道线。 这是加强了,感知在系统中的应用能力,可以减少甚至不需要基于高精地图的信息。 这就是常说的,让系统看到啥是啥。 特斯拉在去年的 AI Day 上提出了多摄像头融合感知的概念,也在学术界和工业界掀起了一波BEV(Bird’s Eye View)感知研究的热潮。 BEV 感知属于多传感器融合中的特征层融合策略,其核心思路是将多个传感器所生成的特征转换到统一的坐标系下,再将其合并到一起,用来完成后续的感知任务。 这里统一的坐标系就是指 BEV,也就是俯视视图下的世界坐标系。 在 BEV 坐标下,车身周边的空间被表示为二维网格,每个网格对应了输入图像上的一个区域。在特斯拉的 FSD 纯视觉系统中,车身四周安放了多个相机,相机的视野之间也有重叠区域,因此,每个 BEV 网格可能在多幅图像上都有对应的区域。 BEV 感知的核心任务就是,如何将来自多幅图像的特征融合到对应的 BEV 网格里。 这里采用的是一种称之为交叉注意力(Cross Attention)的方法。Transformer 网络中常用的是自注意力机制,也就是通过输入数据自身之间的相关性来完成特征编码。 而交叉注意力描述的的是两种不同数据之间的相关性,这里的两种数据分别是指图像坐标下的数据和 BEV 坐标下的数据。 只不过 BEV 感知描述的是二维网格,BEV 感知的任务通常是识别场景中的各种目标,检测路面上的车道线。 到这里,其实算是万里长城第一步,因为这只是统一了 空间世界坐标系。 对于语义的识别还是有一些局限性,特斯拉这一步已经完成,国内虽然已经有车企披露说加入 BEV,但事实上还比较初级,本质上他们还是在用小模型在融合异构传感器。 像 Transformer 这些模块可能还没有多少车企用,自动驾驶公司 毫末、轻舟 有,而重要的是,有些芯片是不支持 Transformer 算法的。 所以,特斯拉自研芯片是有本质原因的,就是要使用自己的网络模型。国内现在要解决的问题还是挺多的,并不是公开说上了 BEV 就能解决很多事的,不过,这是一个好的开始。
特斯拉

2022-11-30

评论 · 0

0/3
大胆发表你的想法~

相关推荐

德卤爱开车

德卤爱开车

评论
德卤爱开车

德卤爱开车

1
德卤爱开车

德卤爱开车

7
3
德卤爱开车

德卤爱开车

1
评论
德卤爱开车

德卤爱开车

1
评论
德卤爱开车

德卤爱开车

评论
德卤爱开车

德卤爱开车

1
评论
德卤爱开车

德卤爱开车

1
评论
德卤爱开车

德卤爱开车

8
7
德卤爱开车

德卤爱开车

评论

更多