Command Palette
Search for a command to run...
SWE-QA: Können Sprachmodelle repository-übergreifende Codefragen beantworten?
Weihan Peng Yuling Shi Yuhang Wang Xinyun Zhang Beijun Shen Xiaodong Gu

Abstract
Das Verständnis und die Schlussfolgerung über gesamte Software-Repositories ist eine zentrale Fähigkeit für intelligente Werkzeuge im Bereich des Software Engineering. Obwohl bestehende Benchmarks wie CoSQA und CodeQA den Forschungsbereich vorangetrieben haben, konzentrieren sie sich überwiegend auf kleine, selbstständige Code-Abschnitte. Diese Ansätze erfassen jedoch die Komplexität realer Repositories nicht adäquat, da ein effektives Verständnis und Reasoning oft die Navigation über mehrere Dateien, das Verständnis der Softwarearchitektur sowie die Berücksichtigung langfristiger Abhängigkeiten erfordert. In diesem Artikel stellen wir SWE-QA vor, einen benchmark auf Repository-Ebene für die Code-Verständnis- und Frage-Antwort-Aufgaben (QA), der die Forschung zu automatisierten QA-Systemen in realistischen Code-Umgebungen unterstützen soll. SWE-QA umfasst 576 hochwertige Frage-Antwort-Paare, die sich über verschiedene Kategorien erstrecken, darunter die Verständnis von Absichten, die Schlussfolgerung über mehrere Dateien hinweg sowie die Analyse von mehrschrittigen Abhängigkeiten. Zur Erstellung von SWE-QA haben wir zunächst 77.100 GitHub-Issues aus 11 populären Repositories gecrawlt. Auf Basis einer Analyse natürlich vorkommender Entwicklerfragen aus diesen Issues haben wir eine zweistufige Taxonomie für Fragestellungen auf Repository-Ebene entwickelt und für jede Kategorie eine Reihe von Ausgangsfragen erstellt. Für jede Kategorie haben wir die Fragen manuell ausgewählt und validiert sowie die entsprechenden Antworten gesammelt. Als Prototyp-Anwendung entwickeln wir zudem SWE-QA-Agent, einen agentenbasierten Rahmen, in dem LLM-Agenten autonom schlussfolgern und handeln, um Antworten zu finden. Wir evaluieren sechs fortschrittliche LLMs auf SWE-QA unter verschiedenen Strategien zur Erweiterung des Kontexts. Die experimentellen Ergebnisse unterstreichen das Potenzial von LLMs, insbesondere unseres SWE-QA-Agent-Frameworks, bei der Bewältigung von QA-Aufgaben auf Repository-Ebene, offenbaren jedoch auch offene Herausforderungen und weisen auf zukünftige Forschungsrichtungen hin.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.