離線学習に多様性促進を導入、AIの創作力とコード生成精度が飛躍
上海交通大学出身のアメリカ・ノースウェスタン大学博士課程学生、郁家豪氏らの研究チームが、離線学習における回答の多様性不足を解消する新手法を開発した。この研究は、大規模言語モデル(LLM)によるコード生成の性能向上に焦点を当てており、特に「テスト時スケーリング(TTS)」と呼ばれる複数候補生成による精度向上技術との連携に注目した。TTSは複数の生成結果を比較し、最適なものを選ぶ手法として広く採用されているが、従来の離線学習では生成結果の多様性が低下し、候補が類似した内容に偏る問題があった。 研究チームは、離線学習の損失関数に「多様性の促進」を目的とした項を追加する新アプローチを提案。これにより、モデルはより多様な候補を生成できるようになり、TTSによる性能向上が顕著に改善された。実験では、オープンソースデータセット「SWE-Bench」で、SWE-Bench-Verifiedランキングで第4位、SWE-Bench-Liteでは第1位を達成。従来の離線学習手法と比較して、明確な性能優位性が確認された。 この成果は、AIによる複雑なタスク、たとえばコード生成、数学コンテスト、CTF(ネットワークセキュリティコンペティション)などにおける効率的かつ多様な解決策の探索に応用可能。特に、クリエイティブな文章作成においては、AIが固定された表現やパターンに依存する「AI味」の問題が長年指摘されてきたが、本手法により生成の多様性が高まり、人間の創造性をより効果的に刺激する可能性がある。 研究の実施過程では、初期に高コストな商用モデル(Claude Sonnet 4)を用いたデータ収集が想定されたが、開発予算を大幅に超えるリスクが判明。その際、国産モデルの急成長が大きな助けとなった。Kimi-K2、Qwen3-coder-480B、GLM-4.5といった国モデルは性能が高く、コストは極めて低く、特にGLM-4.5の1兆トークンの試用プランがタイミング的に合致し、データ収集のコストを50元(約1000円)まで圧縮。微調整に用いたQwen3-coder-30Bも国モデルであり、研究チームは「2023年はLlamaが主流だったが、2025年には国モデルが開発の主流に」と評価。 今後の課題として、複数モデルを用いたTTSにおける「最適なモデル数」や「性能差の影響」についての定量的分析を計画。現状、これらの要素は経験則に頼る部分が大きいが、本研究はその基礎を築く重要な一歩となった。
