Command Palette
Search for a command to run...

要約
マルチモーダル大規模言語モデル(MLLM)の最近の進展により、ロボット操作を目的とした視覚-言語-行動(VLA)モデルの発展が著しく進んでいる。現在の手法は多くの場面で有効であるものの、依然として明示的な指示に大きく依存しており、実世界における人間のインタラクションでは、指示を直接出すことは稀である。効果的な協働には、ロボットがユーザーの意図を能動的に推論する能力が不可欠である。本研究では、明示的な命令ではなく、会話、環境音、視覚的ヒントといった複数モーダルな文脈から意図を導出する「クロスモーダル文脈型指示」という新しい設定を提案する。この新設定に対応するため、意図認識、対話確認、行動実行を統合する、エンド・トゥ・エンドのオムニモーダルLLMに基づく「RoboOmni」というPerceiver-Thinker-Talker-Executorフレームワークを提示する。RoboOmniは、聴覚的・視覚的信号を時空間的に統合することで、堅牢な意図認識を実現しつつ、直接的な音声対話も可能である。ロボット操作における能動的意図認識のための学習データが不足している問題に対処するため、14万エピソード、5,000人以上の発話者、2,400種類以上のイベント音、640種類の背景音、6種類の文脈型指示タイプを含む「OmniAction」データセットを構築した。シミュレーションおよび現実世界での実験の結果、RoboOmniは、従来のテキストベースおよびASR(音声認識)ベースのベースラインと比較して、成功確率、推論速度、意図認識精度、能動的支援の観点で優れた性能を示した。