11 天前

SAM2Act：将视觉基础模型与记忆架构融合用于机器人操作

Haoquan Fang, Markus Grotz, Wilbert Pumacay, Yi Ru Wang, Dieter Fox, Ranjay Krishna, Jiafei Duan

摘要

在多样且动态的环境中运行的机器人操作系统必须具备三项关键能力：多任务交互、对未见场景的泛化能力以及空间记忆。尽管机器人操作领域已取得显著进展，但现有方法在应对复杂环境变化的泛化能力以及处理依赖记忆的任务方面仍存在不足。为弥合这一差距，我们提出SAM2Act——一种基于多视角机器人Transformer的策略框架，该框架利用大规模基础模型提供的视觉表征，并结合多分辨率上采样技术，显著提升了性能。在RLBench基准测试中，SAM2Act在18项任务上实现了86.8%的平均成功率达当前最优水平；在The Colosseum基准测试中，其在多种环境扰动下仍表现出优异的鲁棒性，性能下降仅4.3%。在此基础上，我们进一步提出SAM2Act+，一种受SAM2启发的基于记忆的架构，通过引入记忆库（memory bank）、编码器及注意力机制，有效增强系统的空间记忆能力。为满足对记忆依赖性任务的评估需求，我们设计了MemoryBench——一个全新的基准测试平台，专门用于评估机器人操作中的空间记忆与动作回溯能力。在MemoryBench的基于记忆的任务中，SAM2Act+实现了94.3%的平均成功率，显著优于现有方法，推动了记忆增强型机器人系统的发展边界。项目主页：sam2act.github.io。