Act3D:マルチタスクロボット操作のための3D特徴フィールドTransformer

3Dの知覚表現は、遮蔽の表現が容易であり、空間的推論を簡素化するため、ロボットの操作タスクに適している。多くの操作タスクでは、エンドエフェクタの姿勢予測に高い空間的精度が求められるが、これは通常、計算コストが高い高解像度3D特徴グリッドの必要性を伴う。その結果、多数の操作ポリシーは3Dの誘導的バイアスを放棄し、直接2D空間で動作している。本論文では、タスクに応じて適応的に解像度を調整する3D特徴フィールドを用いてロボットの作業空間を表現する操作ポリシートランスフォーマー「Act3D」を提案する。本モデルは、センシングされた深度情報を用いて2D事前学習済み特徴を3Dに拡張し、それらに注目(attention)を向けながらサンプリングされた3D点の特徴を計算する。Act3Dは粗い段階から細かい段階へと3D点グリッドを段階的にサンプリングし、相対位置に依存するアテンションを用いて特徴化し、次のサンプリングフェーズで注目すべき領域を効率的に選択する。このアプローチにより、高空間解像度の3Dアクションマップを効率的に生成する。Act3Dは、既存の操作ベンチマークであるRL-Benchにおいて、新たなSOTA(最良の成果)を達成した。74のRLBenchタスクにおいて、従来のSOTA 2Dマルチビュー政策よりも10%の絶対的な性能向上を達成し、また、従来のSOTA 3Dポリシーと比較して3倍少ない計算量で22%の絶対的向上を実現した。アブレーション実験を通じて、相対空間的アテンションの重要性、大規模な視覚言語事前学習済み2Dバックボーンの役割、粗から細へのアテンション間での重み共有の意義を定量的に評価した。コードおよび動画は、プロジェクトウェブサイトにて公開されている:https://act3d.github.io/。