Command Palette
Search for a command to run...
Loong: Skalierbare Synthese langer Gedankengänge durch Verifikatoren
Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

Abstract
Neuere Fortschritte bei großen Sprachmodellen (Large Language Models, LLMs) haben gezeigt, dass ihre Schlussfolgerungsfähigkeiten durch Reinforcement Learning mit überprüfbarer Belohnung (Reinforcement Learning with Verifiable Reward, RLVR) erheblich verbessert werden können, insbesondere in Bereichen wie Mathematik und Programmierung, in denen die Richtigkeit der Lösungen automatisiert überprüft werden kann. Die Übertragung dieses Erfolgs auf andere reasoning-intensive Domänen bleibt jedoch aufgrund der Knappheit hochwertiger, überprüfbarer Datensätze und der hohen Kosten menschlicher Aufsicht weiterhin herausfordernd. In dieser Arbeit stellen wir das Loong-Projekt vor: einen Open-Source-Framework zur skalierbaren Generierung synthetischer Daten und deren Überprüfung über eine Vielzahl von reasoning-intensiven Domänen hinweg. Der Framework besteht aus zwei zentralen Komponenten: (1) LoongBench, einer sorgfältig zusammengestellten Ausgangsdatenbank mit 8.729 menschlich geprüften Beispielen aus 12 verschiedenen Domänen (z. B. Fortgeschrittene Mathematik, Chemie, Logik), jeweils mit ausführbarem Code und umfangreichen Metadaten versehen; und (2) LoongEnv, einer modularen Umgebung zur Generierung synthetischer Daten, die verschiedene Prompting-Strategien unterstützt, um neue Frage-Antwort-Code-Tripel zu erzeugen. Zusammen bilden diese Komponenten eine Agent-Umgebung-Schleife, die ein Reinforcement Learning ermöglicht, bei dem ein auf LLMs basierender Agent belohnt wird, wenn er Chain-of-Thought-(CoT-)Lösungen generiert, die mit den durch Code-Ausführung ermittelten Antworten übereinstimmen. Empirisch bewerten wir LoongBench anhand einer breiten Palette sowohl offener als auch proprietärer LLMs, um die Domänenabdeckung zu analysieren und Leistungsengpässe aufzudecken. Zudem führen wir eine umfassende Analyse der von LoongEnv generierten synthetischen Daten durch, wobei wir Korrektheit, Schwierigkeitsgrad und Vielfalt untersuchen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.