Qwen3を用いた長期タスク向け強化学習コードがTerminalBenchでトップを記録
OpenAIの共同創業者アンドレイ・カーパティ氏は、AIの進化が著しいものの、依然として人間の監督が必要であると指摘している。Y Combinatorのイベントで行ったスピーチでは、大規模言語モデル(LLM)が人間にはない種類のミスを犯す可能性があるため、「AIをリードで歩ませる」という表現を使い、慎重な運用を呼びかけた。LLMは「人間の精神」にたとえられ、事実を誤って生成したり、記憶を失ったりするなどの問題があると語った。例えば、9.11が9.9より大きいと誤認したり、strawberryに2つのRがあると誤解したりするケースが挙げられた。カーパティ氏は、開発者自身がAIの出力に責任を持ち、プロンプトを具体的に設計することが重要だと強調している。 一方、GitHubに公開されたプロジェクト「terminal-bench-rl」では、長時間にわたるターミナルタスクのための強化学習(RL)コードが提供されている。このプロジェクトは、カーパティ氏がQwen3-32Bモデルを用いて、スタンフォードのTerminalBenchリーダーボードでトップのQwen3エージェントとなることを目指した。トレーニングには32台のH100GPUを用い、膨大な計算コストを要したが、カーパティ氏はその効果を確認した上で、より低コストなハードウェアでも実行可能にしている。 このプロジェクトでは、LLMによるタスク解決を評価するためのツールやシステムメッセージが開発され、エージェントがタスクをより効率的に遂行できるように設計されている。また、リワード設計には「回答検証」と「LLMジャッジ」の2つのアプローチが組み込まれ、評価の精度を高めている。ジャッジモデルとして Claude Sonnet 4 が最も正確な評価を示した。 さらに、このプロジェクトはrLLMフレームワークを拡張し、エージェントと環境のインターフェースを統合して、強化学習のトレーニングループを構築している。トレーニングにはGroup Relative Policy Optimization(GRPO)が採用され、複雑な構造的推論タスクに適している。また、331のトレーニングタスクを含むデータセットが用意されており、それぞれのタスクにはDocker環境の設定や検証用のスクリプトが含まれている。 カーパティ氏は、今後の改善としてカリキュラム学習やデータセットの拡充、スマートなデータフィルタリングを挙げており、より効果的なトレーニングを実現したいと考えている。ただし、膨大な計算コストのため、完全なトレーニングは実施できなかったとしている。