Command Palette

Search for a command to run...

하루 전

허슬리-고델 머신: 최적의 자기 개선 기계의 근사에 의한 인간 수준의 코드 작동 에이전트 개발

Wenyi Wang Piotr Piękos Li Nanbo Firas Laakom Yimeng Chen Mateusz Ostaszewski Mingchen Zhuge Jürgen Schmidhuber

허슬리-고델 머신: 최적의 자기 개선 기계의 근사에 의한 인간 수준의 코드 작동 에이전트 개발

초록

최근 연구들은 자가 수정(self-improvement)을 코딩 에이전트가 자신의 코드베이스를 수정하는 방식으로 구현하고 있다. 이러한 에이전트들은 소프트웨어 공학 벤치마크 성능이 높은 방향으로 확장 전략을 적용함으로써 자가 수정의 트리(tree)를 확장하며, 이는 이후 더 유망한 자가 수정을 가능하게 한다고 가정한다. 그러나 우리는 에이전트의 자가 수정 잠재력(metaproductivity)과 코딩 벤치마크 성능 사이에 불일치가 존재함을 지적한다. 이를 '메타생산성-성능 불일치(Metaproductivity-Performance Mismatch)'라고 명명한다. 헉슬리(Huxley)의 '계통(clade)' 개념에 영감을 받아, 에이전트의 후손들의 벤치마크 성능을 종합하는 지표인 새로운 메트릭()을 제안한다. 이 지표는 에이전트의 자가 수정 잠재력을 나타내는 지표로 활용될 수 있다. 본 연구에서는 자가 개선 코딩 에이전트 개발 환경에서, 진정한 값을 알고 있다면 고델 기계(Gödel Machine)가 특정 가정 하에서 어떻게 행동할지를 시뮬레이션하는 데 충분함을 보여준다. 이를 바탕으로, 값을 추정하고 이를 안내 기준으로 삼아 자가 수정 트리를 탐색하는 헉슬리-고델 기계(Huxley-Gödel Machine, HGM)를 도입한다. SWE-bench Verified 및 Polyglot 데이터셋에서 HGM은 이전의 자가 개선 코딩 에이전트 개발 방법보다 우수한 성능을 발휘하면서도 할당된 CPU 시간을 더 적게 사용한다. 마지막으로, HGM은 다른 코딩 데이터셋 및 대규모 언어 모델로의 전이 능력도 뛰어나다. GPT-5-mini를 사용하여 SWE-bench Verified에서 최적화된 에이전트는 GPT-5를 활용하여 SWE-bench Lite에서 평가되었을 때 인간 수준의 성능을 달성하며, 인공적으로 설계된 코딩 에이전트의 공식 검증 결과 중 최고 수준과 동일한 성과를 기록한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
허슬리-고델 머신: 최적의 자기 개선 기계의 근사에 의한 인간 수준의 코드 작동 에이전트 개발 | 연구 논문 | HyperAI초신경