Command Palette
Search for a command to run...
Zhixuan Liang Yizhuo Li Tianshuo Yang Chengyue Wu Sitong Mao Liuao Pei Xiaokang Yang Jiangmiao Pang Yao Mu Ping Luo

要約
視覚-言語-行動(Vision-Language-Action: VLA)モデルは、大規模な視覚-言語バックボーンを活用して、画像と指示をロボットの行動にマッピングする。しかし、現在の主流のVLAデコーダーは、固定された左から右への順序で行動を自己回帰的に生成するか、バックボーンの外側に連続的な拡散モデルやフロー・マッチングヘッドを接続する。この2つのアプローチは、それぞれ専用の訓練と反復的なサンプリングを必要とし、統一的かつスケーラブルなアーキテクチャの実現を阻害している。本研究では、離散拡散を用いて行動の離散化されたチャンクをモデル化する単一のトランスフォーマー型方策「Discrete Diffusion VLA」を提案する。このモデルは、VLMバックボーンと同一のクロスエントロピー損失関数で学習され、拡散モデルの段階的精緻化のパラダイムを維持しつつ、VLMの離散トークンインターフェースにネイティブに互換性を持つ。本手法は、容易な行動要素を困難な要素よりも先に解釈する適応的デコーディング順序を実現し、精緻化の各ラウンドにおいて不確実な予測を再マスクすることで再評価する二次的なマスク機構を導入する。これにより、予測の一貫性が向上し、頑健な誤り訂正が可能となる。この統一されたデコーダーは、事前学習済みの視覚-言語事前知識を保持し、並列デコーディングをサポートし、自己回帰的なボトルネックを克服するとともに、関数評価回数を削減する。実験結果では、LIBEROで平均成功率(SR)96.3%、SimplerEnv Fractalで視覚マッチング精度71.2%、SimplerEnv Bridgeで全体的な性能49.3%を達成し、自己回帰的および連続的拡散ベースラインを上回る性能を示した。これらの結果は、離散拡散型行動デコーダーが高精度な行動モデリングと一貫性のある学習を可能にし、VLAモデルをより大規模なモデルおよびデータセットへスケーリングする基盤を築くことを示している。