7ヶ月前

ベンチマーク

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

Xinyi He Qian Liu Mingzhe Du Lin Yan Zhijie Fan Yiming Huang Zejian Yuan Zejun Ma

概要

コードの性能最適化は実際のソフトウェアエンジニアリングにおいて極めて重要であり、プロダクションレベルのシステムにとって不可欠です。大規模言語モデル（LLMs）は、コード生成やバグ修正における優れた能力を示していますが、リポジトリレベルでのコード性能向上に関するその専門性はまだ十分に調査されていません。このギャップを埋めるために、私たちはSWE-Perfを導入します。これは、実際のリポジトリ環境で大規模言語モデルのコード性能最適化タスクを系統的に評価するための最初のベンチマークです。SWE-Perfには140件の慎重に選ばれたインスタンスが含まれており、それぞれは人気のあるGitHubリポジトリからのパフォーマンス改善プルリクエストに基づいています。各ベンチマークインスタンスには関連するコードベース、対象となる関数、パフォーマンスに関連したテスト、専門家によって作成されたパッチ、および実行可能な環境が含まれています。ファイルレベルとリポジトリレベルの手法（例：AgentlessとOpenHands）を代表する方法の包括的な評価を通じて、既存の大規模言語モデルと専門家の最適化性能との間に大きな能力差があることを明らかにし、この新興分野における重要な研究機会を指摘しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

ベンチマーク

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

Xinyi He Qian Liu Mingzhe Du Lin Yan Zhijie Fan Yiming Huang Zejian Yuan Zejun Ma

概要

コードの性能最適化は実際のソフトウェアエンジニアリングにおいて極めて重要であり、プロダクションレベルのシステムにとって不可欠です。大規模言語モデル（LLMs）は、コード生成やバグ修正における優れた能力を示していますが、リポジトリレベルでのコード性能向上に関するその専門性はまだ十分に調査されていません。このギャップを埋めるために、私たちはSWE-Perfを導入します。これは、実際のリポジトリ環境で大規模言語モデルのコード性能最適化タスクを系統的に評価するための最初のベンチマークです。SWE-Perfには140件の慎重に選ばれたインスタンスが含まれており、それぞれは人気のあるGitHubリポジトリからのパフォーマンス改善プルリクエストに基づいています。各ベンチマークインスタンスには関連するコードベース、対象となる関数、パフォーマンスに関連したテスト、専門家によって作成されたパッチ、および実行可能な環境が含まれています。ファイルレベルとリポジトリレベルの手法（例：AgentlessとOpenHands）を代表する方法の包括的な評価を通じて、既存の大規模言語モデルと専門家の最適化性能との間に大きな能力差があることを明らかにし、この新興分野における重要な研究機会を指摘しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

SWE-Perf: 言語モデルは実際のリポジトリでのコード性能を最適化できるか？ | 記事 | HyperAI超神経