7日前

VITA-E：同時視覚、聴覚、発話および行動を伴う自然なエンボディドインタラクション

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang

要約

現在の視覚-言語-行動（VLA）モデルは、しばしば静的で硬直的な相互作用の枠組みに制約されており、環境を同時に視認・聴取・発話・行動する能力に欠け、リアルタイムでのユーザーの中断に対しても動的に対応できない。このため、スムーズなエンベデッド型協働が阻害され、柔軟性に欠け、応答性の乏しいユーザーエクスペリエンスが生じる。こうした課題を克服するため、本研究では、行動の並行性とほぼリアルタイムの中断処理を両立するための新規なエンベデッド型相互作用フレームワーク「VITA-E」を提案する。本アプローチの核となるのは、二つの並列なVLAインスタンスを「アクティブモデル」と「スタンバイモデル」として運用する二重モデルアーキテクチャであり、エムベデッドエージェントが環境を観察し、ユーザーの発話に耳を傾け、言語的応答を生成し、行動を実行するという処理を、すべて並行的かつ中断可能に実現する。これにより、人間のようなマルチタスク処理能力を模倣することが可能となる。さらに、我々は「モデルをコントローラーとして用いる」パラダイムを提唱し、VLM（視覚言語モデル）を微調整して特殊トークンを生成させ、それらをシステムレベルの直接命令として用いることで、モデルの推論とシステムの挙動を密接に連携させる。物理的人型ロボットプラットフォーム上での実験により、VITA-Eが複雑なインタラクティブなシナリオを信頼性高く処理できることを確認した。本フレームワークは、さまざまな二重システムVLAモデルと互換性を有し、緊急停止や発話の中断に対して極めて高い成功確率を達成するとともに、発話と行動の並行処理も成功させた。これは、より自然で高機能なエムベデッドアシスタントの実現に向けた重要な一歩である。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

VITA-E：同時視覚、聴覚、発話および行動を伴う自然なエンボディドインタラクション

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang8 more

要約

AI で AI を構築

Hyper Newsletters

Xiaoyu Liu Chaoyou Fu Chi Yan Chu Wu Haihan Gao Yi-Fan Zhang Shaoqi Dong Cheng Qian Bin Luo Xiuyong Yang