HyperAI超神经
17 days ago

VIKI-R:通过强化学习协调具身多智能体合作

Kang, Li ; Song, Xiufeng ; Zhou, Heng ; Qin, Yiran ; Yang, Jie ; Liu, Xiaohong ; Torr, Philip ; Bai, Lei ; Yin, Zhenfei
VIKI-R:通过强化学习协调具身多智能体合作
摘要

在动态环境中协调多个具身智能体仍然是人工智能领域的核心挑战,这需要基于感知的推理和可扩展的合作策略。尽管近期的研究已经利用大型语言模型(LLMs)进行多智能体规划,但只有少数研究开始探索视觉-语言模型(VLMs)用于视觉推理。然而,这些基于VLM的方法在支持多种具身类型方面仍存在局限性。在这项工作中,我们引入了VIKI-Bench,这是首个专为具身多智能体合作设计的分层基准测试平台,包含三个结构化的层次:智能体激活、任务规划和轨迹感知。VIKI-Bench涵盖了多样化的机器人具身形式、多视角视觉观测和结构化的监督信号,以评估基于视觉输入的推理能力。为了展示VIKI-Bench的实用性,我们提出了VIKI-R,这是一种两阶段框架,首先通过思维链注释的演示对预训练的视觉-语言模型(VLM)进行微调,然后在多层次奖励信号下进行强化学习。我们的大量实验表明,VIKI-R在所有任务层次上显著优于基线方法。此外,我们还展示了强化学习能够促使异构智能体之间出现组合性的合作模式。综上所述,VIKI-Bench和VIKI-R为推进具身AI系统中的多智能体、视觉驱动合作提供了一个统一的测试平台和方法。