概要

大規模なGitHubの課題解決タスク用データセットの構築は、大規模言語モデル（LLMs）のソフトウェア工学能力の訓練と評価において極めて重要です。しかし、このようなベンチマークを作成する従来のプロセスは、評価環境の設定、テスト結果の採点、およびタスクインスタンスの検証などの段階で、非常に困難かつ労力がかかることが知られています。本論文では、これらの課題に対処するために設計された自動化パイプラインであるSWE-Factoryを提案します。当該パイプラインは、3つの主要な自動化コンポーネントを統合して这些问题に取り組んでいます。まず、評価環境構築を自動化するマルチエージェントシステムであるSWE-Builderを導入します。このシステムは4つの専門的なエージェントを使用し、協調的かつ反復的なループで動作し、環境メモリプールを活用することで効率性を向上させます。次に、カスタムパーサーを手動で作成する必要をなくすための標準化された終了コードベースの採点方法を導入します。最後に、これらの信頼性のある終了コード信号を使用してfail2pass検証プロセスを自動化します。4つのプログラミング言語にわたる671件の課題に関する実験では、当該パイプラインが有効なタスクインスタンスを確実に構築できることを示しています。たとえば、GPT-4.1-miniを使用した場合、SWE-Builderは1インスタンスあたり0.045ドルで269件の有効なインスタンスを構築します。Gemini-2.5-flashを使用した場合は1インスタンスあたり0.024ドルという最低コストで同等の性能を達成しました。また、終了コードベースの採点が手動検査と比較して100%の精度を持つことを示しており、自動化されたfail2pass検証は精度0.92と再現率1.00に達していることも確認しました。私たちはこの自動化パイプラインが大規模かつ高品質なGitHub課題解決データセットの収集を加速し、訓練と評価に貢献することを目指しています。私たちのコードとデータセットは以下のURLから公開されています: https://github.com/DeepSoftwareAnalytics/swe-factory.

ソースPDF コードを表示