HyperAIHyperAI

Command Palette

Search for a command to run...

F1:理解と生成を行動へとつなぐ視覚言語行動モデル

Qi Lv Weijie Kong Hao Li Jia Zeng Zherui Qiu Delin Qu Haoming Song Qizhi Chen Xiang Deng Jiangmiao Pang

概要

動的視覚環境における言語条件付きタスクの実行は、 embodid AI における中心的な課題の一つである。既存の視覚-言語-行動(VLA)モデルは、主に反応型の状態から行動へのマッピングを採用しており、その結果、短期的行動をとる傾向があり、動的シーンにおける頑健性が低い場合が多い。本論文では、視覚的予見生成を意思決定プロセスに統合した事前学習済みVLAフレームワーク「F1」を提案する。F1は、認識、予見生成、制御の各専用モジュールを備えたTransformerの混合構造(Mixture-of-Transformer)を採用しており、理解、生成、行動の橋渡しを実現する。本モデルの核となるのは、次のスケール予測機構であり、これにより目的条件付きの視覚的予見を明示的な計画目標として合成する。未来の妥当な視覚状態を予測することで、F1は行動生成を「予見に基づく逆動力学問題」として再定式化し、視覚的目標を暗黙的に達成する行動を生成可能にする。F1に頑健かつ汎化可能な能力を付与するため、136の多様なタスクにわたる33万件以上の軌道を含む大規模データセット上で、三段階の訓練手法を提案する。この訓練スキームはモジュール間の推論能力を強化し、転移可能な視覚的予見能力をモデルに与える。これは、複雑かつ動的な環境において極めて重要である。実世界タスクおよびシミュレーションベンチマークにおける広範な評価により、F1が既存手法を一貫して上回り、タスク成功確率および汎化能力の両面で顕著な向上を達成することが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています