HyperAI超神经

第一届“AI国际象棋棋王争霸赛”于8月5日由谷歌与Kaggle联合开启，为期三天的线上直播赛事吸引了全球关注。比赛在Kaggle游戏竞技场平台进行，采用单败淘汰制，八款主流大语言模型展开对决，旨在通过真实对抗评估AI在策略推理、规划与应变能力方面的表现。首日战况显示，中国模型DeepSeek-R1与Kimi K2 Instruct均以0:4不敌o4 mini与o3，双双出局。其中，Kimi K2在比赛中多次出现非法走法，如试图将d1的皇后直接移至d4，严重违反国际象棋规则，暴露出模型在逻辑约束与规则理解上的不足。而o4 mini与DeepSeek R1的对局则持续近两小时，双方缠斗激烈，体现出一定对抗性。其他比赛中，谷歌Gemini 2.5 Pro击败Claude Opus 4，但其轻量版Gemini 2.5 Flash不敌Grok 4。所有胜者均以4局全胜战绩晋级，反映出当前多数大模型棋力仍处业余水平，远未达到专业引擎水准。本次比赛并非传统静态评测，而是通过动态对抗实现能力量化。模型以文本形式接收棋盘状态（Forsyth-Edwards记谱法）与历史棋谱（PGN格式），需以标准代数记谱（SAN）输出合法落子。若走法非法，允许最多四次重试，否则判负。每步棋限时60分钟，确保节奏可控。赛事引入类似Elo的动态评分系统，依据对局结果与预期胜率偏差调整模型排名，随着对局增多，评分不确定性逐渐降低，形成稳定的能力评估。所有模型将进行全对弈（all-play-all）形式的多轮对决，最终生成具有统计意义的“AI棋王”排行榜。值得一提的是，参赛模型均为通用大语言模型，未针对棋类优化，缺乏专业引擎的搜索能力与棋库支持。相比之下，AlphaZero与Stockfish等专用系统仍处于绝对统治地位。但比赛的价值在于，它能揭示模型的“思考过程”——即每一步决策前的推理文本，这是传统引擎无法提供的透明性。国际象棋大师中村光、卡尔森与莱维·罗斯曼等也参与解说，提升赛事专业性与观赏性。谷歌表示，该平台旨在推动AI在复杂策略任务中的发展，未来将扩展至更多游戏，助力通用人工智能的演进。

Kaggle「AI国际象棋棋王争霸赛」开战：语言模型棋艺尚显稚嫩，AlphaZero依然遥遥领先

Related Links