
ロボット操作における拡散方策(diffusion policies)と3Dシーン表現を統合します。拡散方策は、条件付き拡散モデルを用いて、ロボットおよび環境の状態を条件とした行動分布を学習します。近年、このアプローチは、決定論的方策や他の状態条件付き行動分布学習法を上回る性能を示しており、注目されています。一方、3Dロボット方策は、センシングされた深度情報から単一または複数のカメラ視点から得られる3Dシーン特徴表現を統合し、2Dの対応手法と比較して、カメラ視点の変化にわたる一般化性能が優れています。本研究では、これら2つのアプローチを統一し、3D Diffuser Actorと呼ばれるニューラル方策アーキテクチャを提案します。このアーキテクチャは、自然言語による指示を入力として受け取り、視覚シーンの3D表現を構築し、それを条件としてロボットエンドエフェクタの3D回転および並進を反復的にノイズ除去(denoising)することで、最適な動作を生成します。各ノイズ除去反復ステップにおいて、エンドエフェクタの姿勢推定を3Dシーントークンとして表現し、他の3D視覚トークンおよび言語トークンとの3D相対的アテンション(3D relative attention)を用いて特徴化することで、各トークンに対する3D並進および回転誤差を予測します。実験結果によると、3D Diffuser ActorはRLBenchベンチマークにおいて、マルチビュー設定で現在のSOTA(最先端)に対して絶対性能向上16.3%、シングルビュー設定で13.1%の絶対向上を達成し、新たなSOTAを樹立しました。CALVINベンチマークにおいても、ゼロショットで未観測のシーンに一般化する設定において、現在のSOTAを上回り、成功したタスク数を0.2増加させ、相対的に7%の向上を達成しました。さらに、わずかなデモ例から実世界での動作にも対応可能です。アブレーションスタディにより、3Dシーン特徴化や3D相対アテンションといったアーキテクチャ上の設計選択が、一般化性能の向上に寄与していることを実証しました。本研究の結果から、3Dシーン表現と強力な生成モデルの統合が、デモから効率的なロボット学習を実現する鍵であることが示唆されました。