
不是郑小康

关注
环形隧道
2025-04-07


Google DeepMind 机器人研究科学家 Ted Xiao 的演讲,谈今天机器人模型的重大挑战。
第一也就是 VLM 视觉语言模型或者是 LLM 大语言模型加入机器人模型,也就是我们其实也听的比较多的 VLA 路线(这里并非 cue 理想或元戎,VLA 最先就是机器人领域提出来的一种路线)。
VLM 或 LLM 放在机器人模型领域的问题是什么?是今天现有的 VLM 或 LLM 都是为多轮对话、文本翻译、学术视觉基准这些应用而设计的,但没有针对机器人的应用场景进行优化。
举个例子,BERT 作为一个 LLM 的空间理解能力很差,比如左和右这种对机器人至关重要的空间概念,BERT 其实是混淆的,是左右不分的,这对机器人来说就没法用。
再比如 CLIP 作为一个 VLM,虽然能关联图片和文字,但如果需要精确的空间理解,比如要判断桌上那个杯子具体的位置或方向,表现就拉跨了。
这并不是说 VLM 或 LLM 本身的特点或缺陷,纯粹是现有的模型压根没有针对机器人的应用去优化。
第二个问题,这些模块和模块之前传递信息的方式非常局限,基本上是用非常简单和局限的文本通信的。简单来说这就是智驾领域过去面临的模块化和端到端的问题。现在机器人模型是模块化的,势必会有大量的信息在从上游模块往下游传递的过程中被丢失,那性能咋可能好。
所以,未来应该是自研的,端到端的,针对机器人应用场景的 VLA,才有机会胜出。
环形隧道
2025-04-07
评论 · 0
0/3
大胆发表你的想法~
相关推荐

不是郑小康

赞
评论

不是郑小康

赞
评论

不是郑小康

赞
评论

不是郑小康

赞
评论

不是郑小康

赞
评论

不是郑小康

赞
评论

不是郑小康

15
评论

不是郑小康

赞
评论

不是郑小康

赞
评论

不是郑小康

赞
评论
更多
