vor 5 Monaten

Zusammenfassung

Das Verständnis und die Schlussfolgerung über gesamte Software-Repositories ist eine zentrale Fähigkeit für intelligente Werkzeuge im Bereich des Software Engineering. Obwohl bestehende Benchmarks wie CoSQA und CodeQA den Forschungsbereich vorangetrieben haben, konzentrieren sie sich überwiegend auf kleine, selbstständige Code-Abschnitte. Diese Ansätze erfassen jedoch die Komplexität realer Repositories nicht adäquat, da ein effektives Verständnis und Reasoning oft die Navigation über mehrere Dateien, das Verständnis der Softwarearchitektur sowie die Berücksichtigung langfristiger Abhängigkeiten erfordert. In diesem Artikel stellen wir SWE-QA vor, einen benchmark auf Repository-Ebene für die Code-Verständnis- und Frage-Antwort-Aufgaben (QA), der die Forschung zu automatisierten QA-Systemen in realistischen Code-Umgebungen unterstützen soll. SWE-QA umfasst 576 hochwertige Frage-Antwort-Paare, die sich über verschiedene Kategorien erstrecken, darunter die Verständnis von Absichten, die Schlussfolgerung über mehrere Dateien hinweg sowie die Analyse von mehrschrittigen Abhängigkeiten. Zur Erstellung von SWE-QA haben wir zunächst 77.100 GitHub-Issues aus 11 populären Repositories gecrawlt. Auf Basis einer Analyse natürlich vorkommender Entwicklerfragen aus diesen Issues haben wir eine zweistufige Taxonomie für Fragestellungen auf Repository-Ebene entwickelt und für jede Kategorie eine Reihe von Ausgangsfragen erstellt. Für jede Kategorie haben wir die Fragen manuell ausgewählt und validiert sowie die entsprechenden Antworten gesammelt. Als Prototyp-Anwendung entwickeln wir zudem SWE-QA-Agent, einen agentenbasierten Rahmen, in dem LLM-Agenten autonom schlussfolgern und handeln, um Antworten zu finden. Wir evaluieren sechs fortschrittliche LLMs auf SWE-QA unter verschiedenen Strategien zur Erweiterung des Kontexts. Die experimentellen Ergebnisse unterstreichen das Potenzial von LLMs, insbesondere unseres SWE-QA-Agent-Frameworks, bei der Bewältigung von QA-Aufgaben auf Repository-Ebene, offenbaren jedoch auch offene Herausforderungen und weisen auf zukünftige Forschungsrichtungen hin.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

Intelligente Fragebeantwortung

Natürliche Sprachverarbeitung

Aufgabe

Weihan Peng Yuling Shi Yuhang Wang Xinyun Zhang Beijun Shen Xiaodong Gu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

Intelligente Fragebeantwortung

Natürliche Sprachverarbeitung

Aufgabe

Weihan Peng Yuling Shi Yuhang Wang Xinyun Zhang Beijun Shen Xiaodong Gu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SWE-QA: Können Sprachmodelle repository-übergreifende Codefragen beantworten?

Weihan Peng Yuling Shi Yuhang Wang Xinyun Zhang Beijun Shen Xiaodong Gu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SWE-QA: Können Sprachmodelle repository-übergreifende Codefragen beantworten?

Weihan Peng Yuling Shi Yuhang Wang Xinyun Zhang Beijun Shen Xiaodong Gu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SWE-QA: Können Sprachmodelle repository-übergreifende Codefragen beantworten?

Weihan Peng Yuling Shi Yuhang Wang Xinyun Zhang Beijun Shen Xiaodong Gu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters