Together AI、Qwen3-32Bをベースにした強化学習型コード生成エージェント「DeepSWE」をオープンソースで公開 SWEBenchで59%の精度を達成
Together AIが「DeepSWE」をリリース:全オープンソースの強化学習によるコード生成エージェント Together AIは、「DeepSWE」という最新鋭の完全オープンソースのソフトウェアエンジニアリングエージェントを発表しました。このエージェントは強化学習(RL)によって訓練されており、Qwen3-32Bという言語モデルを基盤としています。SWEBench-Verifiedという高度なベンチマークで59%の精度を達成し、Pass@1評価でも42.2%を記録して、他のオープンウエイトモデルを上回っています。 強化学習とコード生成 DeepSWEは、AgenticaのrLLMフレームワークで後訓練されたQwen3-32Bモデルに基づいています。rLLMはモジュラー設計されており、言語エージェントために特化した強化学習を可能にします。通常の監督学習ではなく、rLLMはエージェントがリアルワールドのワークフローに適応するよう、経験から学習できるように設計されています。 訓練パイプライン 訓練にはR2EGymデータセットが使用されました。これは软ウェアエンジニアリングのタスクに特化し、強化学習向けに設計されたベンチマークです。行動志向の目標、たとえばバグ修正、関数の完成、コード編集などを達成するために、言語モデルが訓練されます。これによりDeepSWEは、人間のエンジニアが成果から学び、改善をする過程をより正確に再現しています。 パフォーマンスと能力 SWEBench-Verifiedでは、テスト時のスケーリングを含め59%の精度を達成しています。これは、従来のオープンウエイトモデルを大幅に上回る結果です。また、Pass@1評価では42.2%を達成しています。これほど優れた結果は、強化学習が反復的な推論や精密な出力を必要とする領域でのエージェントの性能を大きく向上させたことを示しています。 全面的なオープンソース公開 このリリースの特筆すべき点は、全てが透明に公开されていることです。Together AIとAgenticaは、DeepSWEだけでなく、rLLMフレームワーク、R2EGymデータセット、訓練設定スクリプトもオープンソース化しました。これにより、研究者や開発者が制限なくDeepSWEを拡張や改良し、多様な用途に活用できます。 言語理解からアクション指向のエージェントへ DeepSWEの登場は、単に言語を理解するモデルから、インタラクションを通じて学ぶエージェントへとシフトする哲学的・実践的な変革を象徴しています。伝統的な大規模言語モデル(LLM)は強い推論能力を持っていますが、フィードバックに適応したり、使用時に改善したりすることが不足していました。強化学習は、モデルが必要に応じてさらなる適応や改善を行うことを可能にします。 地元展開の可能性も広がります。DeepSWEは完全にオープンソースかつモジュール化されているため、組織固有の用途に合わせて拡張や再訓練が可能です。Webナビゲーション、ロボティクス、自律的な研究支援等领域での独自エージェントの開発も可能になりました。 結論 DeepSWEは、ソフトウェアエンジニアリングにおける生成AIの進化を象徴する大きなマイルストーンです。Qwen3-32Bのような大規模言語モデルを強化学習で訓練し、全体の訓練インフラストラクチャまで公開したことにより、Together AIはエージェントが単に事前に訓練され展開されるだけでなく、継続的に訓練され改善される未来を促進しています。言語理解から行動志向のエージェントへの移行は、プログラミング、自動化、知能システム設計など、多岐にわたる分野に大きな影響を与えるでしょう。 本研究のすべての功績は、プロジェクトに関わった研究者たちに帰属します。詳細や最新情報を得たい場合は、Twitterをフォローしたり、私たちの10万以上のMLサブ Redditに参加したり、メールマガジンにご登録ください。