戦艦AI、鋭い質問で勝率82%達成
MITのコンピュータ科学・人工知能研究所(CSAIL)とハーバード大学応用科学・工学部(SEAS)の共同研究チームは、不確実性が高い環境における言語モデル(LM)の情報探索能力向上を目指し、改良版「バトルシップ」を用いた実証実験を実施した。本研究成果は2026年4月の国際学習表現学会(ICLR)で口頭発表される。 従来、LMは顧客対応や開発支援での回答生成に優れるものの、正解が不明な状況での「有用な質問設計」は課題となっていた。研究陣は人間とAIが協力して隠れた戦艦の位置を当てる「コラボラティブ・バトルシップ」ゲームを開発し、40人以上の人間プレイデータを基にしたBattleshipQAデータセットを構築。これにより、GPT-5やLlama 4 Scoutなど各種LMの推論戦略を検証した。 事前学習を施さないLMは小規模モデルで対人勝率8%に留まったが、モンテカルロ推論戦略の導入により大幅に改善された。この手法は回答ごとに確率分布を再評価し、情報量が最大となる質問を優先的に生成する。さらに、質問内容をPythonコードに変換して検証手順を明確化することで、回答精度も平均15%向上した。その結果、Llama 4 Scoutの対人勝率は8%から82%へ跳ね上がり、推論コストを約1%に抑えながら大規模モデル(GPT-5)をしのぐ性能を発揮した。同様の手法は「ガセッウィー」でも試され、小規模モデルの成功率が30%から72%超へ向上している。 主筆のGabriel Grand MIT博士課程学生は「LMは複雑な問い合わせへの回答には最適化されているが、自らの質問設計は依然として課題だ。世界モデルへのアクセスにより、エージェントはより効率的に情報を収集し、発見を加速できる」と指摘する。シニアオーサーのJacob Andreas教授は「自動形式化による検証手法は既存の解決策の改良に寄与したが、本アプローチは探索と情報収集そのものの強化により、コーディングや数学的問題解決などの分野へ応用可能だと期待している」と述べている。 一方で、専門レベルのプレイヤーや複雑な質問への対応では依然として人間の優位性が残る。研究チームは今後、より多様な選択肢が絡む科学探索シナリオや、人間とAIの協調動作に関する実証実験に焦点を当てる。本成果は、AIエージェントの真のボトルネックが計算最適化ではなく、共同基盤の追跡や誤解解消といった実用推論にあることを示唆しており、今後の応用展開が期待される。
