SWE-Perf: Können Sprachmodelle die Code-Leistung in realen Repositorys optimieren?

Die Optimierung von Code-Leistung ist von entscheidender Bedeutung in der praktischen Softwareentwicklung und für Systeme im Produktionsumfeld. Obwohl große Sprachmodelle (LLMs) beeindruckende Fähigkeiten bei der Codegenerierung und Fehlersuche gezeigt haben, bleibt ihre Kompetenz bei der Verbesserung der Code-Leistung auf Repository-Ebene weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir SWE-Perf vor, den ersten Benchmark, der speziell entwickelt wurde, um LLMs systematisch bei Aufgaben zur Code-Leistungs-Optimierung in authentischen Repository-Kontexten zu bewerten. SWE-Perf besteht aus 140 sorgfältig ausgewählten Instanzen, die jeweils aus Leistungsverbesserungen in Pull Requests von beliebten GitHub-Repositorys abgeleitet sind. Jede Benchmark-Instanz enthält den relevanten Codebestand, Ziel-Funktionen, leistungsbezogene Tests, von Experten verfasste Patches und ausführbare Umgebungen. Durch eine umfassende Bewertung repräsentativer Methoden, die sowohl Datei- als auch Repository-Level-Ansätze abdecken (z.B. Agentless und OpenHands), zeigen wir einen erheblichen Leistungsfähigkeitsunterschied zwischen existierenden LLMs und expertengerechter Optimierung auf, was wichtige Forschungsmöglichkeiten in diesem sich entfaltenden Bereich hervorhebt.