Command Palette
Search for a command to run...

摘要
近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)的快速发展推动了视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人操作领域的显著进步。尽管现有方法在诸多场景中表现出色,但其大多依赖于明确的指令输入;而在现实交互中,人类极少直接下达指令。实现高效协作的关键在于机器人能够主动推断用户意图。为此,本文提出一种新型设定——跨模态上下文指令(cross-modal contextual instructions),即通过口语对话、环境声音与视觉线索来推断用户意图,而非依赖显式的命令输入。为应对这一新设定,我们提出了RoboOmni框架,该框架基于端到端的全模态大语言模型,采用“感知-思考-对话-执行”(Perceiver-Thinker-Talker-Executor)的统一架构,实现了意图识别、交互确认与动作执行的一体化。RoboOmni通过时空融合的方式整合听觉与视觉信号,提升意图识别的鲁棒性,同时支持直接语音交互。针对机器人操作中缺乏主动意图识别训练数据的问题,我们构建了OmniAction数据集,包含14万条交互片段、超过5000名说话者、2400种事件声音、640种背景环境,以及六类上下文指令类型。在仿真环境与真实场景中的实验结果表明,RoboOmni在成功率、推理速度、意图识别准确率以及主动辅助能力等方面均显著优于基于文本或自动语音识别(ASR)的基线方法。