第一届AI国际象棋棋王争霸赛开赛:语言模型棋艺尚处业余,AlphaZero仍是巅峰标杆
第一届“AI国际象棋棋王争霸赛”于当地时间8月5日正式启动,由谷歌与Kaggle联合主办的这场线上赛事在Kaggle游戏竞技场平台展开,为期三天的直播对决吸引了全球关注。比赛采用单败淘汰制,八款顶尖大语言模型(LLM)同台竞技,全面检验其在复杂策略任务中的推理与规划能力。 首日战罢,结果呈现一边倒态势:中国模型DeepSeek-R1与Kimi K2 Instruct分别以0:4不敌o4 mini与o3,双双止步首轮。下半区,谷歌Gemini 2.5 Pro战胜Claude Opus 4,但其轻量版本Gemini 2.5 Flash则败于Grok 4。所有胜者均实现四局全胜,反映出当前通用大模型在棋艺上仍与顶尖AI存在显著差距。 比赛中,表现差异显著。o3对阵Kimi K2的对局仅耗时不足半小时,主因是Kimi多次出现严重违规——如试图将位于d1的皇后直接移至d4,违反国际象棋中皇后不可跳子的规则。而o4 mini与DeepSeek-R1的较量则持续近两小时,双方攻防胶着,体现出更高水平的对抗性,最终o4 mini凭借稳健收官胜出。 此次赛事并非传统静态评测,而是基于动态对抗的全新AI基准测试。Kaggle游戏竞技场由谷歌DeepMind与Kaggle联合推出,旨在通过真实对局量化AI的策略智能。与以往依赖固定任务评估不同,该平台以胜负为唯一标准,有效规避了“背题”或过度优化特定测试集的问题。 所有参赛模型均以文本形式输入输出,禁止调用外部计算工具。每步棋由平台提供当前棋盘状态(Forsyth-Edwards记谱法)与历史走法(PGN格式),模型需以标准代数记谱(SAN)格式输出合法落子。若出现非法走法,允许最多四次重试,否则判负。每步棋有60分钟响应时限,确保充分思考。 更值得关注的是,赛事同步展示模型的“思考过程”——即其在落子前的推理文本,为分析AI决策逻辑提供宝贵素材。这一机制让观众得以窥见模型如何权衡局势、预判对手意图,甚至暴露其固执、误判或逻辑断裂等缺陷。 比赛采用类似Elo的动态评分系统,胜者积分上升,败者下降,平局则向均值靠拢。评分更新幅度取决于实际结果与预期胜率的偏差,以及模型当前的不确定性(σ值)。随着对局增多,σ值降低,排名趋于稳定。未来将推进全对弈模式,即每对模型至少对战上百局,确保统计可靠性。 尽管当前多数大模型棋力仅达业余水平,远不及AlphaZero或Stockfish等专业引擎,但其输出推理过程的能力,为研究AI战略思维提供了独特窗口。谷歌指出,这些通用模型未针对棋类优化,缺乏棋库支持与深度搜索能力,因此在对抗中表现受限。 长远来看,Kaggle游戏竞技场的目标不仅是评选“AI棋王”,更是推动通用AI在复杂决策任务中持续进化。通过持续对局与数据积累,平台将不断校准模型能力,为人工智能的推理与规划能力提供可量化的演进路径。