HyperAI超神经
Back to Headlines

Kaggle「AI国际象棋棋王争霸赛」开战:语言模型棋艺尚显稚嫩,AlphaZero依然遥遥领先

17 小时前

第一届“AI国际象棋棋王争霸赛”于8月5日由谷歌与Kaggle联合开启,为期三天的线上直播赛事吸引了全球关注。比赛在Kaggle游戏竞技场平台进行,采用单败淘汰制,八款主流大语言模型展开对决,旨在通过真实对抗评估AI在策略推理、规划与应变能力方面的表现。 首日战况显示,中国模型DeepSeek-R1与Kimi K2 Instruct均以0:4不敌o4 mini与o3,双双出局。其中,Kimi K2在比赛中多次出现非法走法,如试图将d1的皇后直接移至d4,严重违反国际象棋规则,暴露出模型在逻辑约束与规则理解上的不足。而o4 mini与DeepSeek R1的对局则持续近两小时,双方缠斗激烈,体现出一定对抗性。 其他比赛中,谷歌Gemini 2.5 Pro击败Claude Opus 4,但其轻量版Gemini 2.5 Flash不敌Grok 4。所有胜者均以4局全胜战绩晋级,反映出当前多数大模型棋力仍处业余水平,远未达到专业引擎水准。 本次比赛并非传统静态评测,而是通过动态对抗实现能力量化。模型以文本形式接收棋盘状态(Forsyth-Edwards记谱法)与历史棋谱(PGN格式),需以标准代数记谱(SAN)输出合法落子。若走法非法,允许最多四次重试,否则判负。每步棋限时60分钟,确保节奏可控。 赛事引入类似Elo的动态评分系统,依据对局结果与预期胜率偏差调整模型排名,随着对局增多,评分不确定性逐渐降低,形成稳定的能力评估。所有模型将进行全对弈(all-play-all)形式的多轮对决,最终生成具有统计意义的“AI棋王”排行榜。 值得一提的是,参赛模型均为通用大语言模型,未针对棋类优化,缺乏专业引擎的搜索能力与棋库支持。相比之下,AlphaZero与Stockfish等专用系统仍处于绝对统治地位。但比赛的价值在于,它能揭示模型的“思考过程”——即每一步决策前的推理文本,这是传统引擎无法提供的透明性。 国际象棋大师中村光、卡尔森与莱维·罗斯曼等也参与解说,提升赛事专业性与观赏性。谷歌表示,该平台旨在推动AI在复杂策略任务中的发展,未来将扩展至更多游戏,助力通用人工智能的演进。

Related Links