HyperAI超神经

GAIA 通用人工智能助手的基准数据集

日期

10 个月前

机构

Hugging Face
Meta

发布地址

huggingface.co

下载帮助

GAIA 由 Meta 、 HuggingFace 和 AutoGPT 于 2024 年联合推出,是智能体最全面的基准测试。相关论文成果为「GAIA: a benchmark for General AI Assistants」。

GAIA 由 450 多个具有明确答案的复杂问题组成,需要不同级别的工具和自主性才能解决。因此,它分为 3 个级别,其中 1 级可以被非常优秀的 LLM 攻克,而 3 级则表明模型能力有了很大的提升。每个级别都分为一个完全公开的开发集用于验证,以及一个包含私人答案和元数据的测试集。

问题包含在 metadata.jsonl 中。有些问题附带一个附加文件,该文件可在同一文件夹中找到,其 ID 在字段 file_name 中给出。更多详细信息已在论文中公布。

以下是一个棘手问题的例子:

在 2008 年的画作《乌兹别克斯坦的刺绣》中展示的水果中,哪些是 1949 年 10 月海洋班轮早餐菜单的一部分,该班轮后来作为电影《最后的航程》的漂浮道具使用?请将这些水果按逗号分隔的列表给出,并根据它们在画作中的排列顺时针顺序,从 12 点位置开始。使用每种水果的复数形式。

可以看到这个问题涉及几个难点:

  • 以约束格式回答。
  • 多模态能力,需要从图像中读取水果。
  • 需要收集多个信息,有些信息依赖于其他信息:
    • 图片中的水果
    • 用作《最后的航程》漂浮道具的海洋班轮的身份
    • 上述海洋班轮 1949 年 10 月的早餐菜单
  • 上述内容迫使正确的解决路径使用几个链式步骤。

解决这个问题需要高水平的计划能力和严格的执行力,这恰恰是 LLM 难以应对的两个领域。

因此,它是测试智能体系统的绝佳测试集。在 GAIA 的公开排行榜上,GPT-4-Turbo 的平均成绩不到 7% 。最高的提交是一种基于 Autogen 的解决方案,使用了复杂的多智能体系统并利用 OpenAI 的工具调用功能,达到了 40% 。