2ヶ月前

生成画像としての行動モデル

Mohit Shridhar; Yat Long Lo; Stephen James
生成画像としての行動モデル
要約

画像生成拡散モデルは、画像編集や新規視点合成などの新しい機能を解錠するために微調整されています。同様に、画像生成モデルを視覚運動制御に解錠することは可能でしょうか?本稿では、GENIMA(ジェニマ)を紹介します。GENIMAは、Stable Diffusion(安定拡散)を微調整してRGB画像上で「関節動作を描画」するターゲットを生成する行動複製エージェントです。これらの画像は、視覚的なターゲットを一連の関節位置にマッピングするコントローラーに入力されます。我々はGENIMAを25のRLBenchおよび9つの実世界操作タスクで研究しました。その結果、動作を画像空間に昇華することで、インターネットで事前学習された拡散モデルが最新の視覚運動アプローチよりも優れたポリシーを生成できることを見出しました。特に、シーンの摂動に対する堅牢性と新規オブジェクトへの汎化能力において優れています。また、当手法は深さやキーポイント、モーションプランナーなどの事前知識を持たないにもかかわらず、3Dエージェントと競争できる性能を示しています。

生成画像としての行動モデル | 最新論文 | HyperAI超神経