6ヶ月前

概要

ロボット操作における拡散方策と3Dシーン表現の統合を提案する。拡散方策は、条件付き拡散モデルを用いて、ロボットおよび環境の状態を条件とした行動分布を学習する。近年、この手法は決定論的方策や他の状態条件付き行動分布学習法を上回る性能を示している。一方、3Dロボット方策は、センサによる深度情報から得られた1台または複数台のカメラビューから得られる3Dシーン特徴表現を統合し、2Dの対応手法と比較してカメラ視点の変化に対してより優れた汎化性能を発揮することが示されている。本研究では、これら2つのアプローチを統合し、言語指令を入力として、視覚シーンの3D表現を構築し、その上でロボットエンドエフェクタの3D回転と並進を反復的にノイズ除去するニューラル方策アーキテクチャ「3D Diffuser Actor」を提案する。各ノイズ除去反復において、本モデルはエンドエフェクタの姿勢推定値を3Dシーントークンとして表現し、それらを他の3D視覚トークンおよび言語トークンとの3D相対アテンションによって特徴化することで、各トークンに対する3D並進および回転誤差を予測する。3D Diffuser Actorは、多視点設定において現在のSOTA（最先端）と比較して16.3%の絶対的な性能向上を達成し、単一視点設定では13.1%の絶対的向上を示した。CALVINベンチマークにおいても、ゼロショットで未知のシーンに一般化する設定において、現在のSOTAを上回り、成功したタスク数を0.2多く実行できたことから、相対的に7%の向上を達成した。また、わずかな示範データから実世界でも動作可能である。本研究では、3Dシーン特徴化や3D相対アテンションといったモデルのアーキテクチャ設計選択について消去実験（ablation study）を行い、それらがすべて汎化性能の向上に寄与することを示した。これらの結果から、3Dシーン表現と強力な生成モデリングが、示範からの効率的なロボット学習の鍵であることが示唆される。

ソースPDF コードを表示