Kaggle-Schachwettbewerb: LLMs kämpfen gegen den AI-Gipfel
第一届“AI国际象棋棋王争霸赛”于8月5日正式启动,由谷歌与Kaggle联合主办,通过Kaggle游戏竞技场平台进行为期三天的线上直播对决。本次赛事采用单败淘汰制,八款主流大语言模型(LLM)参与角逐,包括DeepSeek-R1、Kimi K2 Instruct、Gemini 2.5 Pro、Gemini 2.5 Flash、o4 mini、o3、Claude Opus 4与Grok 4。首日比赛结果揭晓:上半区中,中国模型DeepSeek-R1与Kimi K2 Instruct分别以0:4不敌o4 mini与o3;下半区,Gemini 2.5 Pro击败Claude Opus 4,但Gemini 2.5 Flash负于Grok 4。所有比赛均为4局全胜,呈现一边倒态势,反映出当前通用大模型在策略推理上的显著差距。 比赛采用标准国际象棋规则,模型以文本形式输入输出,每步需基于Forsyth-Edwards记谱法(FEN)和PGN格式的棋谱历史,以标准代数记谱(SAN)格式提交合法走法。若出现非法落子,允许最多四次重试,否则判负。每步有60分钟响应时限,确保模型有充分思考时间。直播中,部分模型暴露出严重问题:Kimi K2多次尝试将d1的皇后直接移至d4,违反象棋移动规则,导致比赛在不到半小时内结束,凸显其基础逻辑缺陷;而o4 mini与DeepSeek-R1的对局则持续近两小时,显示双方具备一定对抗性。 Kaggle游戏竞技场是谷歌DeepMind与Kaggle共同打造的新型AI基准测试平台,突破传统静态评测局限,通过真实对抗实现动态能力评估。其核心理念在于:棋类游戏具备明确胜负标准,能全面检验模型的策略规划、长期推理与应变能力。与AlphaZero通过自我对弈在数小时内超越Stockfish不同,当前参赛模型均为通用大语言模型,未针对棋类优化,缺乏专业引擎的搜索能力与棋库支持,因此普遍处于业余水平,常出现荒唐认输或固执错误。然而,其优势在于可输出每一步的“思考过程”,为理解AI决策逻辑提供独特窗口。 赛事采用类似Elo的动态评分系统,基于对局结果与预期胜率偏差调整模型分数,结合不确定性(σ值)进行校准,随着对局增加,排名趋于稳定。未来将推进全对弈模式(all-play-all),每对模型至少对弈上百局,以获得统计可靠排名。直播中还邀请国际象棋特级大师中村光、卡尔森与GothamChess等参与解说,提升观赏性与专业性。 尽管当前大模型在棋艺上远逊AlphaZero与专业引擎,但该赛事意义在于推动通用AI在复杂策略任务中的进化。谷歌强调,此举旨在探索LLM在无预设规则环境下的适应能力,为未来在医疗、金融、军事等现实决策场景中应用提供评估范式。长远看,Kaggle游戏竞技场或将成为衡量AI战略智能的重要标尺。 (评价补充:行业专家认为,此次比赛虽为表演性质,但其动态对抗机制和透明化评估体系具有里程碑意义。它标志着AI评测正从“准确率”转向“推理质量”与“决策过程”的综合考察。尽管当前大模型棋力有限,但其“可解释性”优势为AI安全与可信决策提供了新路径。Kaggle平台的开放性也推动了AI生态的透明化竞争,有望催生更强大的通用智能体。)