10日前

CodeDiffuser: 注意力強化拡散ポリシーとVLM生成コードによる指示の曖昧性解消

Guang Yin, Yitong Li, Yixuan Wang, Dale McConachie, Paarth Shah, Kunimatsu Hashimoto, Huan Zhang, Katherine Liu, Yunzhu Li

論文の詳細を見る

CodeDiffuser: 注意力強化拡散ポリシーとVLM生成コードによる指示の曖昧性解消

要約

ロボット操作タスクの自然言語指示はしばしば曖昧さとあいまいさを示します。例えば、「マグカップをマグツリーにかけなさい」という指示は、選べるマグカップや枝が複数ある場合、複数の有効な行動を含む可能性があります。既存の言語条件付きポリシーは、通常、高レベルの意味理解と低レベルの行動生成を統合的に処理するエンドツーエンドモデルに依存していますが、これらのモデルはモジュール性と解釈可能性に欠けるため、最適でない性能をもたらすことがあります。これらの課題に対処するために、我々は自然言語による潜在的な曖昧さを持つタスクを達成できる新しいロボット操作フレームワークを提案します。このフレームワークでは、Vision-Language Model (VLM) を使用して自然言語指示における抽象概念を解釈し、解釈可能かつ実行可能な中間表現であるタスク固有コードを生成します。生成されたコードは認識モジュールと連携し、空間情報と意味情報を統合することでタスクに関連する領域を強調する3D注目マップを作成し、指示の曖昧さを効果的に解決します。広範な実験を通じて、我々は現在の模倣学習手法における重要な制限点、例えば言語や環境変動への適応能力の低さなどを特定しました。我々のアプローチが言語の曖昧さ、接触豊富な操作、および多物体相互作用を含む困難な操作タスクにおいて優れていることを示しています。