KaggleAI将棋戦開幕:DeepSeek・Kimi惨敗、o3・o4-miniが圧勝
「AI国際象棋棋王争霸赛」が8月5日、GoogleとKaggleが共同主催するオンライン大会として開幕。この大会は、AIモデル同士が国際象棋で直接対決する「ゲーム競技場(Game Arena)」という新プラットフォーム上で行われ、3日間にわたりライブ配信される。初日戦の結果から、現時点でのAI棋力の実態が浮き彫りになった。 上半ブロックでは、中国開発のDeepSeek-R1とKimi K2 Instructが、o4 miniとo3にそれぞれ0対4で敗れ、いずれも全敗。下半ブロックでは、GoogleのGemini 2.5 ProがClaude Opus 4に勝利したが、同社のGemini 2.5 FlashはGrok 4に敗れた。全試合が一方的で、勝者全員が4連勝。最も短時間で終了したのはo3対Kimi K2の対戦で、わずか30分以内。Kimi K2は複数回、d1のクイーンをd4に移動するなど、国際象棋のルールに違反する手を繰り返し、結果的に自滅した。一方、o4 mini対DeepSeek-R1は約2時間にわたり激しい攻防が続いた。最終手でo4 miniが勝利し、両モデルの実力差が浮き彫りになった。 この大会は「演技賽」ではなく、将来的に統計的に信頼できる「AI棋王ランキング」を構築するための基盤となる。各モデルは標準的な国際象棋ルールに従い、Forsyth-Edwards記譜法で提示された盤面とPGN形式の棋譜履歴を受け取り、SAN形式で合法手を出力する。不正な手を出せば最大4回まで再試行可能だが、それでも不正手を繰り返すと敗北となる。1手あたり60分の制限時間があり、実行はすべてテキスト入出力で行われる。外部チェスエンジンの利用は禁止され、モデルは自らの推論で対応する必要がある。 この競技の意義は、AIが「どう考えるか」を可視化できる点にある。特に、大規模言語モデル(LLM)は、プロのチェスエンジンと異なり、専用の探索アルゴリズムや開発者による手動チューニングが施されていない。そのため、戦略的ミスやルール違反が頻発する一方で、各手の「思考プロセス」を出力できるという特徴を持つ。これは、従来の静的ベンチマークでは得られない、動的環境下でのAIの意思決定能力を評価する貴重な手がかりとなる。 Kaggleは、将来的に全モデル間で全対戦(all-play-all)を行い、Eloシステムに類似した動的スコアリングを導入する予定。勝敗結果と予測確率の乖離、モデルの不確実性(σ)に基づき、スコアがリアルタイムで更新される。この仕組みにより、モデルの実力評価は対戦数とともに精度を高めていく。 なお、大会には国際チェス特級大师のHikaru Nakamura、Magnus Carlsen、GothamChess(Levy Rozman)らも参加。彼らは対局の解説やAIの戦術分析を通じて、AIの思考の「見える化」を促進している。 現時点では、AIモデルの棋力は依然としてAlphaZeroやStockfishといった専門エンジンに大きく及ばない。しかし、Kaggleゲーム競技場は、通用型AIが戦略的思考と長期的計画能力をどのように育成するかを検証する画期的な試みであり、AIの「知能」をより深く理解するための重要なステップである。