17日前

GR-MG:マルチモーダル・ゴール条件付きポリシーを活用した部分的にアノテーションされたデータの活用

Peiyan Li, Hongtao Wu, Yan Huang, Chilam Cheang, Liang Wang, Tao Kong
GR-MG:マルチモーダル・ゴール条件付きポリシーを活用した部分的にアノテーションされたデータの活用
要約

ロボット工学分野では、柔軟な自然言語指示に基づいて汎用的なロボット操作を実現することを目指す取り組みが一貫して行われてきました。その主な課題の一つは、行動とテキストの両方が完全にラベル付けされたロボット軌道データを収集するためには、時間と人的リソースが非常に多くかかる点にあります。一方で、行動ラベルが付与されていない人間の活動映像や、テキストラベルが付与されていないロボット軌道データなど、部分的にラベル付けされたデータは比較的容易に収集可能です。このようなデータを活用することで、ロボットの汎化能力を向上させることは可能でしょうか?本論文では、テキスト指示とゴール画像の両方に条件付け可能な新しい手法GR-MGを提案します。学習フェーズでは、GR-MGは軌道データからゴール画像をサンプリングし、テキストとゴール画像の両方、またはテキストが存在しない場合にはゴール画像のみに条件付けを行います。推論フェーズでは、テキストのみが入力される状況を想定し、拡散型画像編集モデルを用いてゴール画像を生成し、生成された画像とテキストの両方に条件付けして処理を行います。このアプローチにより、大量の部分的にラベル付けされたデータを有効活用しつつ、自然言語による柔軟なタスク指定も可能になります。正確なゴール画像を生成するため、本研究ではタスクの進行状況情報を生成プロセスに組み込む「プログレス誘導型ゴール画像生成モデル」を新たに提案します。シミュレーション実験では、連続して実行可能なタスク数の平均値が5タスク中3.35から4.04に向上しました。実ロボット実験では、58種類の異なるタスクを実行でき、単純な設定では成功率が68.7%から78.1%へ、汎化設定では44.4%から60.6%へと向上しました。また、新規スキルの少データ学習においても、比較対照となるベースライン手法を上回る性能を示しました。動画デモ、コード、およびモデルチェックポイントはプロジェクトページにて公開されています:https://gr-mg.github.io/。

GR-MG:マルチモーダル・ゴール条件付きポリシーを活用した部分的にアノテーションされたデータの活用 | 最新論文 | HyperAI超神経