HyperAIHyperAI

Command Palette

Search for a command to run...

Console
9時間前

X-VLA:スケーラブルなクロスエモダイム視覚言語行動モデルとしてのソフトプロンプト付きトランスフォーマー

X-VLA:スケーラブルなクロスエモダイム視覚言語行動モデルとしてのソフトプロンプト付きトランスフォーマー

要約

汎用的なビジョン・言語・アクション(VLA)モデルの成功は、大規模かつ多様な身体構造(エミボディメント)を持つロボットプラットフォーム間で効果的な学習を実現することに依存しており、そのために異種で豊富なロボットデータセットの活用が不可欠である。このような豊富かつ多様なロボットデータソースにおける異質性を促進し活用するため、我々は新たな「ソフトプロンプト(Soft Prompt)」手法を提案する。この手法は、プロンプト学習の概念を異種エミボディメント間のロボット学習に組み込み、各異なるデータソースに対して個別に学習可能な埋め込み(embedding)を導入することで、最小限の追加パラメータで実現される。これらの埋め込みは、身体構造に特化したプロンプトとして機能し、統合されることでVLAモデルが異なるエミボディメント特徴を効果的に活用できるようにする。本研究では、新たなX-VLAと呼ばれるVLAアーキテクチャを提案する。これは、シンプルかつスケーラブルな特徴を持つ、流体マッチング(flow-matching)に基づくアーキテクチャであり、標準的なTransformerエンコーダにソフトプロンプトのみを適用することで構成される。6つのシミュレーションおよび3台の実機ロボットを対象とした評価において、0.9Bパラメータ規模のX-VLA-0.9Bは、広範なベンチマークにおいてSOTA(最先端)性能を同時に達成しており、柔軟な機敏性から、異なるエミボディメント、環境、タスクへの迅速な適応まで、多様な能力軸において優れた成果を示した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています