HyperAI超神経
14日前

Skywork-SWE: ソフトウェア工学におけるLLMのデータスケーリング法則の解明

Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou
Skywork-SWE: ソフトウェア工学におけるLLMのデータスケーリング法則の解明
要約

ソフトウェア工学(SWE)は最近、次世代LLMエージェントにとって重要なテストベッドとして浮上しており、持続的な反復問題解決(例:50回以上の対話ラウンド)と長文脈依存関係の解消(例:32kトークン以上)という2つの重要な次元での固有の能力が求められています。しかし、SWEにおけるデータキュレーションプロセスは依然として非常に時間のかかるものであり、コードファイルのフィルタリングや専用ランタイム環境の設定に手動アノテーションが大きく依存しています。これにより、既存の多くのデータセットは数千件のGitHub由来のインスタンスに限定されています。この課題に対処するため、我々は体系的にSWEデータセットのボリュームと多様性を拡大する増分的かつ自動化されたデータキュレーションパイプラインを提案します。我々のデータセットには、2,531個の異なるGitHubリポジトリから抽出した10,169件の実世界Pythonタスクインスタンスが含まれており、各インスタンスには自然言語で指定されたタスクと自動単体テスト検証用の専用ランタイム環境イメージが付属しています。我々は提案したSWEデータセットから8,000件以上の成功したランタイム検証済みトレーニング軌跡を慎重にキュレーションしました。Skywork-SWEモデルをこれらの軌跡で微調整すると、驚くべきデータスケーリング現象が明らかになります:訓練モデルの性能はデータサイズが増加するにつれて改善し続け、飽和する兆しはありません。特に、Skywork-SWEモデルは検証者や複数ロールアウトを使用せずにSWE-bench Verifiedベンチマークで38.0%のpass@1精度を達成し、OpenHandsエージェントフレームワークに基づいて構築されたQwen2.5-Coder-32B系LLMの中で新しい最先端(SOTA)を確立しています。さらに、テスト時のスケーリング技術を取り入れることで、性能は47.0%の精度まで向上し、32B未満パラメータを持つモデルにおける以前のSOTA結果を上回りました。我々は将来の研究を加速するためにSkywork-SWE-32Bモデルチェックポイントを公開します。