HyperAIHyperAI

Command Palette

Search for a command to run...

SWE-Perf: Können Sprachmodelle die Code-Leistung in realen Repositorys optimieren?

Xinyi He Qian Liu Mingzhe Du Lin Yan Zhijie Fan Yiming Huang Zejian Yuan Zejun Ma

Zusammenfassung

Die Optimierung von Code-Leistung ist von entscheidender Bedeutung in der praktischen Softwareentwicklung und für Systeme im Produktionsumfeld. Obwohl große Sprachmodelle (LLMs) beeindruckende Fähigkeiten bei der Codegenerierung und Fehlersuche gezeigt haben, bleibt ihre Kompetenz bei der Verbesserung der Code-Leistung auf Repository-Ebene weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir SWE-Perf vor, den ersten Benchmark, der speziell entwickelt wurde, um LLMs systematisch bei Aufgaben zur Code-Leistungs-Optimierung in authentischen Repository-Kontexten zu bewerten. SWE-Perf besteht aus 140 sorgfältig ausgewählten Instanzen, die jeweils aus Leistungsverbesserungen in Pull Requests von beliebten GitHub-Repositorys abgeleitet sind. Jede Benchmark-Instanz enthält den relevanten Codebestand, Ziel-Funktionen, leistungsbezogene Tests, von Experten verfasste Patches und ausführbare Umgebungen. Durch eine umfassende Bewertung repräsentativer Methoden, die sowohl Datei- als auch Repository-Level-Ansätze abdecken (z.B. Agentless und OpenHands), zeigen wir einen erheblichen Leistungsfähigkeitsunterschied zwischen existierenden LLMs und expertengerechter Optimierung auf, was wichtige Forschungsmöglichkeiten in diesem sich entfaltenden Bereich hervorhebt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SWE-Perf: Können Sprachmodelle die Code-Leistung in realen Repositorys optimieren? | Paper | HyperAI