Command Palette
Search for a command to run...
Pierre Andrews Amine Benhalloum Gerard Moreno-Torres Bertran Matteo Bettini Amar Budhiraja et al

摘要
我们提出了元智能体研究环境(Meta Agents Research Environments,简称 ARE),这是一个用于可扩展地构建环境、集成合成或真实应用,并执行智能体编排的科研平台。ARE 提供简洁的抽象机制,支持构建复杂且多样化的环境,每个环境均可自定义规则、工具、内容和验证机制,有助于弥合模型开发与真实世界部署之间的鸿沟。我们还提出了 Gaia2,一个基于 ARE 构建的基准测试,旨在衡量智能体的通用能力。与以往基准不同,Gaia2 不仅要求智能体完成搜索与执行任务,还要求其应对模糊性与噪声干扰,适应动态变化的环境,与其他智能体协作,并在时间约束下运行。由于 Gaia2 采用异步运行机制,能够暴露静态设置下难以察觉的新类型故障模式。我们的实验表明,在智能谱系的各个维度上,尚无任何系统占据绝对优势:更强的推理能力往往以牺牲效率为代价,而预算扩展曲线趋于饱和,凸显了对新型架构和自适应计算策略的迫切需求。更重要的是,ARE 的抽象设计使得 Gaia2 可持续扩展至其他环境,赋能研究社区快速构建面向特定领域的新型基准测试。在人工智能发展的第二阶段,进步日益依赖于定义有意义的任务和具备鲁棒性的评估体系,以持续推动前沿能力的演进。