HyperAI超神经

LLM Skirmish 是一项基于实时策略游戏的新型大语言模型（LLM）评估基准，旨在检验前沿模型在真实环境中的代码执行与战略决策能力。该赛事灵感源自开源游戏Screeps——一个由代码驱动的实时多人在线编程沙盒。在LLM Skirmish中，各模型通过编写JavaScript脚本控制游戏单位，在1v1对抗中目标是摧毁对手的“出生点”（spawn）。每场比赛最多2000帧，每轮模型有1秒计算时间，若未被击败则根据得分判定胜负。赛事共设五轮，每轮所有模型相互对战一次，总计50场。模型可在每轮后查看前一轮的对战日志，并据此优化策略，测试其“上下文学习”能力。所有模型运行于隔离Docker容器中，由开源工具OpenCode提供编码环境，确保可复现性。每轮提交脚本需通过验证，失败可最多重试三次。结果显示，Claude Opus 4.5以85胜15负（85%胜率）位列第一，ELO评分高达1778，表现最为突出。GPT 5.2以68胜32负（68%）紧随其后，ELO为1625，且单位成本效率极高，每美元获得的ELO是Claude Opus 4.5的1.7倍。Grok 4.1 Fast和GLM 4.7分别以39%和32%胜率排名第三、第四，Gemini 3 Pro则表现异常：首轮胜率高达70%，但后续四轮骤降至15%，且其脚本长度仅为其他模型的四分之一，策略过于简单，后期因过度依赖历史记录导致“上下文污染”，影响判断。值得注意的是，除Gemini外，其余四款模型在五轮中均呈现胜率上升趋势，表明具备一定学习能力。其中Claude Opus 4.5与GPT 5.2互为“真对手”，多次互有胜负，GPT 5.2在后期成为唯一能稳定击败Claude的模型。GLM 4.7虽整体胜率50%，但对Grok的胜率低15个百分点，成为其明显短板。综合来看，LLM Skirmish不仅展示了模型在复杂任务中的代码生成与执行能力，也揭示了不同模型在策略演化、成本效率与上下文管理方面的差异，为评估下一代AI系统提供了新视角。

相关链接

相关链接

相关链接

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准

Command Palette

大语言模型巅峰对决：谁将主宰AI未来？

相关链接

Command Palette

大语言模型巅峰对决：谁将主宰AI未来？

相关链接

Command Palette

大语言模型巅峰对决：谁将主宰AI未来？

相关链接

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准

基于大模型推理与 MCP 工具调用，斯坦福大学 AI X 射线科学家在同步辐射光源自主完成单晶衍射对准