HyperAI

第一届“AI国际象棋棋王争霸赛”于8月5日正式启动，由谷歌与Kaggle联合主办，通过Kaggle游戏竞技场平台进行为期三天的线上直播对决。本次赛事采用单败淘汰制，八款主流大语言模型（LLM）参与角逐，包括DeepSeek-R1、Kimi K2 Instruct、Gemini 2.5 Pro、Gemini 2.5 Flash、o4 mini、o3、Claude Opus 4与Grok 4。首日比赛结果揭晓：上半区中，中国模型DeepSeek-R1与Kimi K2 Instruct分别以0:4不敌o4 mini与o3；下半区，Gemini 2.5 Pro击败Claude Opus 4，但Gemini 2.5 Flash负于Grok 4。所有比赛均为4局全胜，呈现一边倒态势，反映出当前通用大模型在策略推理上的显著差距。比赛采用标准国际象棋规则，模型以文本形式输入输出，每步需基于Forsyth-Edwards记谱法（FEN）和PGN格式的棋谱历史，以标准代数记谱（SAN）格式提交合法走法。若出现非法落子，允许最多四次重试，否则判负。每步有60分钟响应时限，确保模型有充分思考时间。直播中，部分模型暴露出严重问题：Kimi K2多次尝试将d1的皇后直接移至d4，违反象棋移动规则，导致比赛在不到半小时内结束，凸显其基础逻辑缺陷；而o4 mini与DeepSeek-R1的对局则持续近两小时，显示双方具备一定对抗性。 Kaggle游戏竞技场是谷歌DeepMind与Kaggle共同打造的新型AI基准测试平台，突破传统静态评测局限，通过真实对抗实现动态能力评估。其核心理念在于：棋类游戏具备明确胜负标准，能全面检验模型的策略规划、长期推理与应变能力。与AlphaZero通过自我对弈在数小时内超越Stockfish不同，当前参赛模型均为通用大语言模型，未针对棋类优化，缺乏专业引擎的搜索能力与棋库支持，因此普遍处于业余水平，常出现荒唐认输或固执错误。然而，其优势在于可输出每一步的“思考过程”，为理解AI决策逻辑提供独特窗口。赛事采用类似Elo的动态评分系统，基于对局结果与预期胜率偏差调整模型分数，结合不确定性（σ值）进行校准，随着对局增加，排名趋于稳定。未来将推进全对弈模式（all-play-all），每对模型至少对弈上百局，以获得统计可靠排名。直播中还邀请国际象棋特级大师中村光、卡尔森与GothamChess等参与解说，提升观赏性与专业性。尽管当前大模型在棋艺上远逊AlphaZero与专业引擎，但该赛事意义在于推动通用AI在复杂策略任务中的进化。谷歌强调，此举旨在探索LLM在无预设规则环境下的适应能力，为未来在医疗、金融、军事等现实决策场景中应用提供评估范式。长远看，Kaggle游戏竞技场或将成为衡量AI战略智能的重要标尺。（评价补充：行业专家认为，此次比赛虽为表演性质，但其动态对抗机制和透明化评估体系具有里程碑意义。它标志着AI评测正从“准确率”转向“推理质量”与“决策过程”的综合考察。尽管当前大模型棋力有限，但其“可解释性”优势为AI安全与可信决策提供了新路径。Kaggle平台的开放性也推动了AI生态的透明化竞争，有望催生更强大的通用智能体。）

Kaggle-Schachwettbewerb: LLMs kämpfen gegen den AI-Gipfel

Related Links