日期

2 年前

数据集组织

论文 URL

标签

GAIA 由 Meta 、 HuggingFace 和 AutoGPT 于 2024 年联合推出，是智能体最全面的基准测试。相关论文成果为「GAIA: a benchmark for General AI Assistants」。 GAIA 由 450 多个具有明确答案的复杂问题组成，需要不同级别的工具和自主性才能解决。因此，它分为 3 个级别，其中 1 级可以被非常优秀的 LLM 攻克，而 3 级则表明模型能力有了很大的提升。每个级别都分为一个完全公开的开发集用于验证，以及一个包含私人答案和元数据的测试集。问题包含在 metadata.jsonl 中。有些问题附带一个附加文件，该文件可在同一文件夹中找到，其 ID 在字段 file_name 中给出。更多详细信息已在论文中公布。以下是一个棘手问题的例子:

在 2008 年的画作《乌兹别克斯坦的刺绣》中展示的水果中，哪些是 1949 年 10 月海洋班轮早餐菜单的一部分，该班轮后来作为电影《最后的航程》的漂浮道具使用？请将这些水果按逗号分隔的列表给出，并根据它们在画作中的排列顺时针顺序，从 12 点位置开始。使用每种水果的复数形式。可以看到这个问题涉及几个难点:

以约束格式回答。
多模态能力，需要从图像中读取水果。
需要收集多个信息，有些信息依赖于其他信息:

图片中的水果
用作《最后的航程》漂浮道具的海洋班轮的身份
上述海洋班轮 1949 年 10 月的早餐菜单

上述内容迫使正确的解决路径使用几个链式步骤。解决这个问题需要高水平的计划能力和严格的执行力，这恰恰是 LLM 难以应对的两个领域。因此，它是测试智能体系统的绝佳测试集。在 GAIA 的公开排行榜上，GPT-4-Turbo 的平均成绩不到 7% 。最高的提交是一种基于 Autogen 的解决方案，使用了复杂的多智能体系统并利用 OpenAI 的工具调用功能，达到了 40% 。

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

在 Discord 上讨论

日期

2 年前

数据集组织

论文 URL

arxiv.org

标签

基准

在 2008 年的画作《乌兹别克斯坦的刺绣》中展示的水果中，哪些是 1949 年 10 月海洋班轮早餐菜单的一部分，该班轮后来作为电影《最后的航程》的漂浮道具使用？请将这些水果按逗号分隔的列表给出，并根据它们在画作中的排列顺时针顺序，从 12 点位置开始。使用每种水果的复数形式。可以看到这个问题涉及几个难点:

以约束格式回答。
多模态能力，需要从图像中读取水果。
需要收集多个信息，有些信息依赖于其他信息:

图片中的水果
用作《最后的航程》漂浮道具的海洋班轮的身份
上述海洋班轮 1949 年 10 月的早餐菜单

上述内容迫使正确的解决路径使用几个链式步骤。解决这个问题需要高水平的计划能力和严格的执行力，这恰恰是 LLM 难以应对的两个领域。因此，它是测试智能体系统的绝佳测试集。在 GAIA 的公开排行榜上，GPT-4-Turbo 的平均成绩不到 7% 。最高的提交是一种基于 Autogen 的解决方案，使用了复杂的多智能体系统并利用 OpenAI 的工具调用功能，达到了 40% 。

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

DRACO 跨领域深度研究基准数据集

2 个月前

ToolACE 复杂工具学习对话数据集

3 个月前

CHIMERA 通用推理合成数据集

9 天前

CL-bench 上下文学习评估基准数据集

4 个月前

Nemotron-Math-v2 数学推理数据集

9 天前

MCIF 多模态跨语言指令跟随数据集

6 个月前

TxT360-3efforts 多任务推理数据集

9 天前

LongBench-Pro 长上下文综合评测数据集

9 天前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

GAIA 通用人工智能助手的基准数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GAIA 通用人工智能助手的基准数据集

相关数据集

DRACO 跨领域深度研究基准数据集

ToolACE 复杂工具学习对话数据集

CHIMERA 通用推理合成数据集

CL-bench 上下文学习评估基准数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GAIA 通用人工智能助手的基准数据集

相关数据集

DRACO 跨领域深度研究基准数据集

ToolACE 复杂工具学习对话数据集

CHIMERA 通用推理合成数据集

CL-bench 上下文学习评估基准数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

DRACO 跨领域深度研究基准数据集

ToolACE 复杂工具学习对话数据集

CHIMERA 通用推理合成数据集

CL-bench 上下文学习评估基准数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集

相关数据集

DRACO 跨领域深度研究基准数据集

ToolACE 复杂工具学习对话数据集

CHIMERA 通用推理合成数据集

CL-bench 上下文学习评估基准数据集

Nemotron-Math-v2 数学推理数据集

MCIF 多模态跨语言指令跟随数据集

TxT360-3efforts 多任务推理数据集

LongBench-Pro 长上下文综合评测数据集