GAIA 通用人工智能助手的基准数据集
GAIA 由 Meta 、 HuggingFace 和 AutoGPT 于 2024 年联合推出,是智能体最全面的基准测试。相关论文成果为「GAIA: a benchmark for General AI Assistants」。
GAIA 由 450 多个具有明确答案的复杂问题组成,需要不同级别的工具和自主性才能解决。因此,它分为 3 个级别,其中 1 级可以被非常优秀的 LLM 攻克,而 3 级则表明模型能力有了很大的提升。每个级别都分为一个完全公开的开发集用于验证,以及一个包含私人答案和元数据的测试集。
问题包含在 metadata.jsonl 中。有些问题附带一个附加文件,该文件可在同一文件夹中找到,其 ID 在字段 file_name 中给出。更多详细信息已在论文中公布。
以下是一个棘手问题的例子:
在 2008 年的画作《乌兹别克斯坦的刺绣》中展示的水果中,哪些是 1949 年 10 月海洋班轮早餐菜单的一部分,该班轮后来作为电影《最后的航程》的漂浮道具使用?请将这些水果按逗号分隔的列表给出,并根据它们在画作中的排列顺时针顺序,从 12 点位置开始。使用每种水果的复数形式。
可以看到这个问题涉及几个难点:
- 以约束格式回答。
- 多模态能力,需要从图像中读取水果。
- 需要收集多个信息,有些信息依赖于其他信息:
- 图片中的水果
- 用作《最后的航程》漂浮道具的海洋班轮的身份
- 上述海洋班轮 1949 年 10 月的早餐菜单
- 上述内容迫使正确的解决路径使用几个链式步骤。
解决这个问题需要高水平的计划能力和严格的执行力,这恰恰是 LLM 难以应对的两个领域。
因此,它是测试智能体系统的绝佳测试集。在 GAIA 的公开排行榜上,GPT-4-Turbo 的平均成绩不到 7% 。最高的提交是一种基于 Autogen 的解决方案,使用了复杂的多智能体系统并利用 OpenAI 的工具调用功能,达到了 40% 。