Command Palette
Search for a command to run...

摘要
人工智能研究代理有望通过自动化机器学习模型的设计、实现与训练过程,加速科学进步。然而,该领域仍处于起步阶段,影响代理行为轨迹成功或失败的关键因素尚未完全明晰。本文探讨了创意多样性在代理性能中的作用。首先,我们在MLE-bench这一广受认可的基准测试平台上,对不同模型与代理架构(agent scaffolds)下的代理行为轨迹进行了分析。结果表明,不同模型与代理架构所表现出的创意多样性存在显著差异,且表现更优的代理往往具备更高的创意多样性。进一步地,我们开展了一项受控实验,通过调节创意多样性的程度,验证了更高的创意多样性能够带来更优的性能表现。最后,为增强研究结果的稳健性,我们引入了MLE-bench标准奖牌评分之外的多种评估指标进行交叉验证,结果表明,上述发现仍能在多种代理性能度量下保持一致。