大模型加持的机器人有多强，MIT CSAIL&IAIFI用自然语言指导机器人抓取物体

机器之心 | 2023-08-21 21:43:06 阅读：492

来自 MIT CSAIL 和 IAIFI 的研究者将准确的 3D 几何图形与来自 2D 基础模型的丰富语义结合起来，让机器人能够利用 2D 基础模型中丰富的视觉和语言先验，完成语言指导的操作。

最近，具身智能成为人工智能领域关注的一个焦点。从斯坦福大学的 VIMA 机器人智能体，到谷歌 DeepMind 推出首个控制机器人的视觉 - 语言 - 动作（VLA）的模型 RT-2，大模型加持的机器人研究备受关注。

当前，自监督和语言监督的图像模型已经包含丰富的世界知识，这对于泛化来说非常重要，但图像特征是二维的。我们知道，机器人任务通常需要对现实世界中三维物体的几何形状有所了解。

基于此，来自 MIT CSAIL 和 IAIFI 的研究者利用蒸馏特征场（Distilled Feature Field，DFF），将准确的 3D 几何图形与来自 2D 基础模型的丰富语义结合起来，让机器人能够利用 2D 基础模型中丰富的视觉和语言先验，完成语言指导的操作。

论文地址：https://arxiv.org/abs/2308.07931

具体来说，该研究提出了一种用于 6-DOF 抓取和放置的小样本学习方法，并利用强大的空间和语义先验泛化到未见过物体上。使用从视觉 - 语言模型 CLIP 中提取的特征，该研究提出了一种通过开放性的自然语言指令对新物体进行操作，并展示了这种方法泛化到未见过的表达和新型物体的能力。

方法介绍

该研究分析了少样本和语言指导的操作，其中需要在没见过类似物体的情况下，给定抓取演示或文本描述，机器人就能拾取新物体。为了实现这一目标，该研究围绕预训练图像嵌入构建了系统，这也是从互联网规模的数据集中学习常识先验的可靠方法。

下图 1 描述了该研究设计的系统：机器人首先使用安装在自拍杆上的 RGB 相机拍摄一系列照片来扫描桌面场景，这些照片用于构建桌面的神经辐射场 (NeRF)。最重要的是，该神经辐射场经过训练不仅可以渲染 RGB 颜色，还可以渲染来自预训练视觉基础模型的图像特征。这会产生一种场景表征，称为蒸馏特征场（DFF），它将 2D 特征图的知识嵌入到 3D 体积中。然后，机器人参考演示和语言指令来抓取用户指定的物体。

该研究的一大亮点是从 CLIP 模型中提取密集的二维特征，来给蒸馏特征场提供监督。此前，OpenAI 的 CLIP 模型仅提供图片尺度的全局特征，而 3D 神经场的生成需要密集的 2D 描述符。

为了解决这个问题，研究团队使用 MaskCLIP 对 CLIP 的视觉模型进行重新参数化，提取 patch 级密集特征。此方法不需要重新训练，可以保证其描述符与语言模型的对齐。

具身智能（embodied intelligence) 囊括机器人，自动驾驶汽车等和物理世界有相互作用的人工智能体。这类智能体需要对物理世界同时进行几何空间和语义的理解来进行决策。

为了实现这样的表征能力，研究团队将视觉基础模型和视觉 - 语言基础模型中经过预训练的二维视觉表征通过可微分的三维渲染，构建为 3D 特征场。团队将这个方法运用在 6-DOF 机器人抓取任务上，这种方法叫作机器人操作特征场（Feature Fields for Robotic Manipulation，F3RM）的方法需要解决三个独立的问题：