HyperAIHyperAI
vor 13 Tagen

RES-Q: Evaluierung von Code-Editing Large Language Model Systemen im Maßstab des Repositorys

Beck LaBash, August Rosedale, Alex Reents, Lucas Negritto, Colin Wiel
RES-Q: Evaluierung von Code-Editing Large Language Model Systemen im Maßstab des Repositorys
Abstract

Die Fähigkeit von Großsprachmodellen (Large Language Models, LLMs), Anweisungen zu befolgen, hat eine Klasse von auf LLMs basierenden Systemen ermöglicht, die komplexe Aufgaben wie die Bearbeitung großer Code-Repositories angehen können. Aufgrund der hohen Empfindlichkeit und Unvorhersehbarkeit des LLM-Verhaltens gegenüber Veränderungen in der Prompting-Strategie sind robuste Evaluierungswerkzeuge erforderlich, um die zukünftige Weiterentwicklung dieser Systeme voranzutreiben. Wir stellen RES-Q vor, einen auf natürlicher Sprache basierenden Benchmark zur Bewertung von $\textbf{R}$epository-$\textbf{E}$diting-$\textbf{S}$ystemen, der aus 100 handgefertigten Repository-Bearbeitungsaufgaben besteht, die aus echten GitHub-Commits abgeleitet wurden. Gegeben eine Bearbeitungsanweisung und ein Code-Repository bewertet RES-Q die Fähigkeit eines LLM-Systems, die Anweisung zu verstehen, das Repository zu navigieren, um relevante Informationen zu sammeln, und eine geeignete Änderung zu erstellen, die die vorgegebenen Kriterien erfüllt. Wir argumentieren, dass eine solche Bewertungsmethode die Probleme traditioneller Benchmarks adressiert und eine umfassendere Einschätzung der Fähigkeiten eines Modells ermöglicht. Wir evaluieren verschiedene state-of-the-art LLMs als Sprachagenten in einem auf Qurrent OS, unserer Software zur Entwicklung von Sprachagenten, basierenden Repository-Bearbeitungssystem. Trotz einer Differenz von nur 1% im Pass@1-Ergebnis auf HumanEval erzielt Claude Sonnet 3.5 eine um 12% höhere Pass@1-Leistung auf RES-Q als GPT-4o, was darauf hinweist, dass RES-Q die Fähigkeiten verschiedener Modelle unterscheiden kann, während traditionelle Benchmarks an ihre Sättigungsgrenze gelangen. Weitere Analysen untersuchen die Token-Effizienz, die Korrelationen der Leistung mit bestehenden Benchmarks sowie bemerkenswerte Unterschiede zwischen geschlossenen und Open-Source-LLMs. Der Quellcode und das Datenset sind unter https://github.com/Qurrent-AI/RES-Q verfügbar.

RES-Q: Evaluierung von Code-Editing Large Language Model Systemen im Maßstab des Repositorys | Neueste Forschungsarbeiten | HyperAI