3 个月前

Alexis Audran-Reiss Jordi Armengol Estapé Karen Hambardzumyan Amar Budhiraja Martin Josifoski Edan Toledo Rishi Hazra Despoina Magka Michael Shvartsman Parth Pathak

摘要

人工智能研究代理有望通过自动化机器学习模型的设计、实现与训练过程，加速科学进步。然而，该领域仍处于起步阶段，影响代理行为轨迹成功或失败的关键因素尚未完全明晰。本文探讨了创意多样性在代理性能中的作用。首先，我们在MLE-bench这一广受认可的基准测试平台上，对不同模型与代理架构（agent scaffolds）下的代理行为轨迹进行了分析。结果表明，不同模型与代理架构所表现出的创意多样性存在显著差异，且表现更优的代理往往具备更高的创意多样性。进一步地，我们开展了一项受控实验，通过调节创意多样性的程度，验证了更高的创意多样性能够带来更优的性能表现。最后，为增强研究结果的稳健性，我们引入了MLE-bench标准奖牌评分之外的多种评估指标进行交叉验证，结果表明，上述发现仍能在多种代理性能度量下保持一致。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

Alexis Audran-Reiss Jordi Armengol Estapé Karen Hambardzumyan Amar Budhiraja Martin Josifoski Edan Toledo Rishi Hazra Despoina Magka Michael Shvartsman Parth Pathak

摘要

人工智能研究代理有望通过自动化机器学习模型的设计、实现与训练过程，加速科学进步。然而，该领域仍处于起步阶段，影响代理行为轨迹成功或失败的关键因素尚未完全明晰。本文探讨了创意多样性在代理性能中的作用。首先，我们在MLE-bench这一广受认可的基准测试平台上，对不同模型与代理架构（agent scaffolds）下的代理行为轨迹进行了分析。结果表明，不同模型与代理架构所表现出的创意多样性存在显著差异，且表现更优的代理往往具备更高的创意多样性。进一步地，我们开展了一项受控实验，通过调节创意多样性的程度，验证了更高的创意多样性能够带来更优的性能表现。最后，为增强研究结果的稳健性，我们引入了MLE-bench标准奖牌评分之外的多种评估指标进行交叉验证，结果表明，上述发现仍能在多种代理性能度量下保持一致。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供