Huxley-Gödel-Maschine: Entwicklung eines menschlichen Niveaus codierenden Agents durch eine Näherung der optimalen selbstverbessernden Maschine
Wenyi Wang Piotr Piękos Li Nanbo Firas Laakom Yimeng Chen Mateusz Ostaszewski Mingchen Zhuge Jürgen Schmidhuber

Abstract
Kürzlich wurden Selbstverbesserungsprozesse durch Coding-Agenten operationalisiert, die ihre eigenen Codebasen bearbeiten. Diese Agenten erweitern einen Baum selbstmodifizierender Änderungen mittels Expansionsstrategien, die eine höhere Leistung in Software-Engineering-Benchmark-Tests bevorzugen, unter der Annahme, dass eine bessere Leistung auf eine vielversprechendere Folge von Selbstmodifikationen hindeutet. Wir identifizieren jedoch eine Diskrepanz zwischen dem Selbstverbesserungspotenzial eines Agenten (Metaproduktivität) und seiner Leistung im Benchmark-Test, die wir als Metaproduktivitäts-Leistungs-Mismatch bezeichnen. Inspiriert durch Huxleys Konzept des Clade schlagen wir eine Metrik () vor, die die Benchmark-Leistungen der Nachkommen eines Agenten aggregiert, um deren Potenzial für Selbstverbesserung zu indizieren. Wir zeigen, dass im Rahmen unserer Entwicklung von selbstverbessernden Coding-Agenten der Zugriff auf die wahre ausreicht, um zu simulieren, wie sich die Gödel-Maschine unter bestimmten Annahmen verhalten würde. Wir führen die Huxley-Gödel-Maschine (HGM) ein, die schätzt und diese Schätzung als Leitfaden nutzt, um den Baum der Selbstmodifikationen zu durchsuchen. Auf den Datensätzen SWE-bench Verified und Polyglot übertrifft die HGM bisherige Ansätze zur Entwicklung selbstverbessernder Coding-Agenten, wobei weniger CPU-Stunden verbraucht werden. Zuletzt zeigt die HGM eine starke Transferfähigkeit auf andere Coding-Datensätze und große Sprachmodelle. Der durch die HGM auf SWE-bench Verified mit GPT-5-mini optimierte Agent erreicht bei der Bewertung auf SWE-bench Lite mit GPT-5 menschenähnliche Leistung und entspricht den besten offiziell überprüften Ergebnissen menschlich konzipierter Coding-Agenten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.