Command Palette

Search for a command to run...

1 天前

赫胥黎-哥德尔机器:通过最优自改进机器的近似实现人类水平的编码Agent开发

Wenyi Wang Piotr Piękos Li Nanbo Firas Laakom Yimeng Chen Mateusz Ostaszewski Mingchen Zhuge Jürgen Schmidhuber

赫胥黎-哥德尔机器:通过最优自改进机器的近似实现人类水平的编码Agent开发

摘要

近期研究通过编码智能体自主修改自身代码库的方式,实现了自我改进的可操作化。这些智能体通过采用偏好更高软件工程基准性能的扩展策略,构建出一个自我修改的树状结构,其假设是:更高的基准性能意味着后续自我修改具有更大的潜力。然而,我们发现智能体的自我改进潜力(即元生产率)与其在编码基准测试中的表现之间存在不匹配,这种现象被称为“元生产率-性能不匹配”(Metaproductivity-Performance Mismatch)。受赫胥黎(Huxley)“类群”(clade)概念的启发,我们提出了一项新指标(),该指标通过聚合一个智能体后代在各类基准测试中的表现,作为其自我改进潜力的衡量依据。我们证明,在我们所构建的自我改进型编码智能体开发框架中,若能获取真实值,则足以模拟在特定假设下哥德尔机(Gödel Machine)的行为。为此,我们提出了赫胥黎-哥德尔机(Huxley-Gödel Machine, HGM)——该模型通过估计并利用该指标作为指导,对自我修改的树状结构进行搜索。在 SWE-bench Verified 和 Polyglot 数据集上,HGM 的表现优于以往的自我改进型编码智能体方法,同时所消耗的 CPU 计算资源更少。更重要的是,HGM 在其他编码数据集和大型语言模型之间展现出强大的迁移能力。在使用 GPT-5-mini 优化 SWE-bench Verified 任务后,HGM 所生成的智能体在 SWE-bench Lite 上以 GPT-5 为评估模型,达到了人类水平的性能,其结果与人工设计的编码智能体中官方验证的最佳成绩相当。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供