11日前

SAM2Act：視覚基盤モデルとメモリアーキテクチャの統合によるロボット操作

Haoquan Fang, Markus Grotz, Wilbert Pumacay, Yi Ru Wang, Dieter Fox, Ranjay Krishna, Jiafei Duan

要約

多様で動的な環境下で動作するロボット操作システムは、3つの重要な能力——複数タスクの同時処理、未観測のシナリオへの一般化、空間記憶——を備える必要がある。ロボット操作分野においては著しい進展が見られたものの、既存のアプローチは複雑な環境変動への一般化や記憶依存型タスクの対応において依然として課題を抱えている。このギャップを埋めるために、本研究では大規模な基礎モデル（foundation model）から得られる視覚表現を多解像度アップサンプリングと組み合わせ、マルチビュー型のロボット変換器ベースのポリシー「SAM2Act」を提案する。SAM2ActはRLBenchベンチマークにおける18のタスクで平均成功率86.8%という最先端の性能を達成し、The Colosseumベンチマークにおいても多様な環境摂動下でわずか4.3%の性能低下にとどまり、高い一般化能力を示した。この基盤をもとに、SAM2に着想を得た記憶ベースのアーキテクチャ「SAM2Act+」を提案する。SAM2Act+は記憶バンク、エンコーダ、アテンション機構を統合し、空間記憶能力を強化している。さらに、記憶依存型タスクの評価ニーズに応じて、空間記憶および行動の再現能力を評価するための新規ベンチマーク「MemoryBench」を導入した。SAM2Act+はMemoryBenchにおける記憶依存型タスクで平均成功率94.3%を達成し、既存手法を大きく上回り、記憶ベース型ロボットシステムの限界を押し広げた。プロジェクトページ：sam2act.github.io