Command Palette
Search for a command to run...
Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

要約
視覚-言語-行動(Vision-Language-Action, VLA)モデルは、大規模かつ多様なデータセット上で事前学習されることで、汎用的なロボット操作に大きな可能性を示している。しかし、ロボットの身体性やタスク自体が事前学習データと異なる場合に、これらのモデルを下流タスクに適応させることが依然として主要な課題となっている。このような乖離は、行動分布の著しい不一致を引き起こし、効果的なファインチューニングには膨大なデータと計算リソースが必要となる。この課題に対処するため、本研究では、データ効率性に優れ、即座に統合可能な適応フレームワークである「Align-Then-stEer(\texttt{ATE})」を提案する。\texttt{ATE}は、まず、変分自己符号化器(VAE)を逆KLダイバージェンスによって制約することで、異なる行動空間を統一された潜在空間に整合する。この潜在空間において、適応用の行動が事前学習された行動潜在分布のモードに埋め込まれる。その後、ファインチューニング中に、拡散モデルまたはフローに基づくVLAの生成プロセスを、ターゲットドメインへとモデル出力分布を引き寄せるように導くガイドメカニズムによって制御する。我々は、シミュレーションおよび現実世界の両方において、異なる身体性や異なるタスクに対する操作タスクについて広範な実験を実施した。代表的なVLAモデルに対する直接的なファインチューニングと比較して、本手法はシミュレーション環境において平均マルチタスク成功率を最大で\textbf{9.8\%}向上させ、現実世界の異なる身体性設定においては\textbf{32\%の成功率向上}を達成した。本研究は、新たなロボットプラットフォームやタスクへのVLAモデルの実用的導入を大幅に向上させる汎用的かつ軽量な解決策を提示している。