Command Palette
Search for a command to run...
ReCode: Aktualisierung von Code-API-Wissen mit Reinforcement Learning
Haoze Wu Yunzhi Yao Wenhao Yu Huajun Chen Ningyu Zhang

Abstract
Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten zur Codegenerierung, scheitern aber bei der Anpassung an häufige Aktualisierungen von externen Bibliotheks-APIs. Diese kritische Einschränkung, die auf einer Verwendung veralteter API-Wissen aus ihren Trainingsdaten basiert, behindert selbst bei Zugang zu aktueller Dokumentation die zuverlässige Codegenerierung in dynamischen Umgebungen. Um dieses Problem anzugehen, schlagen wir ReCode (regelbasiertes Reinforcement Learning für Codeaktualisierung) vor, einen neuen Rahmen, der die Anpassungsfähigkeit menschlicher Programmierer an API-Änderungen nachahmt. Insbesondere bauen wir einen Datensatz mit etwa 2.000 Dateneinträgen auf, um die LLMs zu trainieren, Versionsmigrationen basierend auf aktualisierten Informationen durchzuführen. Anschließend führen wir eine modifizierte Zeichenkettenähnlichkeitsmetrik für die Codebewertung ein, die als Belohnung für das Reinforcement Learning dient. Unsere Experimente zeigen, dass ReCode die Leistung der LLMs bei der Codegenerierung in dynamischen API-Szenarien erheblich steigert, insbesondere bei der Aufgabe CodeUpdateArena, die bisher nicht gesehen wurde. Entscheidend ist dabei, dass ReCode im Vergleich zum überwachten Feinjustierungsvorgang weniger Auswirkungen auf die allgemeinen Fähigkeiten der LLMs zur Codegenerierung hat. Wir wenden ReCode auf verschiedene LLMs und Reinforcement-Learning-Algorithmen (GRPO und DAPO) an, wobei alle konsistente Verbesserungen erzielen. Bemerkenswerterweise übertreffen Qwen2.5-Coder-7B nach dem Training sowohl das 32-Milliarden-Parameter-Modell zur Codieranweisungsfeinjustierung als auch das mit gleicher Architektur ausgestattete Modell zur Schlussfolgerung. Der Quellcode ist unter https://github.com/zjunlp/ReCode verfügbar.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.