2ヶ月前

アライン・セントゥスティア：統合潜在ガイドにより視覚言語行動モデルの適応

Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

要約

視覚-言語-行動（Vision-Language-Action, VLA）モデルは、大規模かつ多様なデータセット上で事前学習されることで、汎用的なロボット操作に大きな可能性を示している。しかし、ロボットの身体性やタスク自体が事前学習データと異なる場合に、これらのモデルを下流タスクに適応させることが依然として主要な課題となっている。このような乖離は、行動分布の著しい不一致を引き起こし、効果的なファインチューニングには膨大なデータと計算リソースが必要となる。この課題に対処するため、本研究では、データ効率性に優れ、即座に統合可能な適応フレームワークである「Align-Then-stEer（\texttt{ATE}）」を提案する。\texttt{ATE}は、まず、変分自己符号化器（VAE）を逆KLダイバージェンスによって制約することで、異なる行動空間を統一された潜在空間に整合する。この潜在空間において、適応用の行動が事前学習された行動潜在分布のモードに埋め込まれる。その後、ファインチューニング中に、拡散モデルまたはフローに基づくVLAの生成プロセスを、ターゲットドメインへとモデル出力分布を引き寄せるように導くガイドメカニズムによって制御する。我々は、シミュレーションおよび現実世界の両方において、異なる身体性や異なるタスクに対する操作タスクについて広範な実験を実施した。代表的なVLAモデルに対する直接的なファインチューニングと比較して、本手法はシミュレーション環境において平均マルチタスク成功率を最大で\textbf{9.8\%}向上させ、現実世界の異なる身体性設定においては\textbf{32\%の成功率向上}を達成した。本研究は、新たなロボットプラットフォームやタスクへのVLAモデルの実用的導入を大幅に向上させる汎用的かつ軽量な解決策を提示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

アライン・セントゥスティア：統合潜在ガイドにより視覚言語行動モデルの適応

Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

要約

AI で AI を構築

Hyper Newsletters