Command Palette
Search for a command to run...
SWE-Perf: 言語モデルは実際のリポジトリでのコード性能を最適化できるか?
SWE-Perf: 言語モデルは実際のリポジトリでのコード性能を最適化できるか?
Xinyi He Qian Liu Mingzhe Du Lin Yan Zhijie Fan Yiming Huang Zejian Yuan Zejun Ma
概要
コードの性能最適化は実際のソフトウェアエンジニアリングにおいて極めて重要であり、プロダクションレベルのシステムにとって不可欠です。大規模言語モデル(LLMs)は、コード生成やバグ修正における優れた能力を示していますが、リポジトリレベルでのコード性能向上に関するその専門性はまだ十分に調査されていません。このギャップを埋めるために、私たちはSWE-Perfを導入します。これは、実際のリポジトリ環境で大規模言語モデルのコード性能最適化タスクを系統的に評価するための最初のベンチマークです。SWE-Perfには140件の慎重に選ばれたインスタンスが含まれており、それぞれは人気のあるGitHubリポジトリからのパフォーマンス改善プルリクエストに基づいています。各ベンチマークインスタンスには関連するコードベース、対象となる関数、パフォーマンスに関連したテスト、専門家によって作成されたパッチ、および実行可能な環境が含まれています。ファイルレベルとリポジトリレベルの手法(例:AgentlessとOpenHands)を代表する方法の包括的な評価を通じて、既存の大規模言語モデルと専門家の最適化性能との間に大きな能力差があることを明らかにし、この新興分野における重要な研究機会を指摘しています。