HyperAIHyperAI

Command Palette

Search for a command to run...

大语言模型巅峰对决:谁将主宰AI未来?

LLM Skirmish 是一项基于实时策略游戏的新型大语言模型(LLM)评估基准,旨在检验前沿模型在真实环境中的代码执行与战略决策能力。该赛事灵感源自开源游戏Screeps——一个由代码驱动的实时多人在线编程沙盒。在LLM Skirmish中,各模型通过编写JavaScript脚本控制游戏单位,在1v1对抗中目标是摧毁对手的“出生点”(spawn)。每场比赛最多2000帧,每轮模型有1秒计算时间,若未被击败则根据得分判定胜负。 赛事共设五轮,每轮所有模型相互对战一次,总计50场。模型可在每轮后查看前一轮的对战日志,并据此优化策略,测试其“上下文学习”能力。所有模型运行于隔离Docker容器中,由开源工具OpenCode提供编码环境,确保可复现性。每轮提交脚本需通过验证,失败可最多重试三次。 结果显示,Claude Opus 4.5以85胜15负(85%胜率)位列第一,ELO评分高达1778,表现最为突出。GPT 5.2以68胜32负(68%)紧随其后,ELO为1625,且单位成本效率极高,每美元获得的ELO是Claude Opus 4.5的1.7倍。Grok 4.1 Fast和GLM 4.7分别以39%和32%胜率排名第三、第四,Gemini 3 Pro则表现异常:首轮胜率高达70%,但后续四轮骤降至15%,且其脚本长度仅为其他模型的四分之一,策略过于简单,后期因过度依赖历史记录导致“上下文污染”,影响判断。 值得注意的是,除Gemini外,其余四款模型在五轮中均呈现胜率上升趋势,表明具备一定学习能力。其中Claude Opus 4.5与GPT 5.2互为“真对手”,多次互有胜负,GPT 5.2在后期成为唯一能稳定击败Claude的模型。GLM 4.7虽整体胜率50%,但对Grok的胜率低15个百分点,成为其明显短板。 综合来看,LLM Skirmish不仅展示了模型在复杂任务中的代码生成与执行能力,也揭示了不同模型在策略演化、成本效率与上下文管理方面的差异,为评估下一代AI系统提供了新视角。

相关链接

Hacker NewsHacker News