HyperAIHyperAI

Command Palette

Search for a command to run...

BagelVLA:視覚・言語・行動の交互生成による長期予測操作の向上

概要

目的を遂行する能力、物理的結果を予測する能力、正確な行動を生成する能力を具備した身体的エージェント(embodied agents)の開発は、汎用的な操作(general-purpose manipulation)において不可欠である。近年の視覚・言語・行動統合モデル(Vision-Language-Action: VLA)は、事前学習された基礎モデルを活用しているが、通常は言語的計画(linguistic planning)または視覚的予測(visual forecasting)のいずれかにのみ焦点を当てており、両方の能力を同時に統合して行動生成を導くことは稀である。その結果、複雑で長時間にわたる操作タスクにおいて、性能が最適化されない傾向にある。このギャップを埋めるために、本研究では、言語的計画、視覚的予測、行動生成の3つを統一的なフレームワーク内で統合する「BagelVLA」を提案する。BagelVLAは、事前学習済みの統合的理解・生成モデルを初期化として用い、テキストによる推論と視覚的予測を行動実行ループ内に直接交互に組み込むように学習する。これらのモダリティを効率的に結合するため、本研究では「残差フロー誘導(Residual Flow Guidance: RFG)」を導入する。RFGは現在の観測から初期化され、1ステップ分のノイズ除去(denoising)を用いて予測用の視覚特徴を抽出し、最小限の遅延で行動生成をガイドする。広範な実験により、BagelVLAが複数のシミュレーションおよび現実世界のベンチマークにおいて、既存のベースラインを大きく上回ることが実証された。特に、多段階の推論を要するタスクにおいて顕著な優位性が示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています