HyperAIHyperAI

Command Palette

Search for a command to run...

OpenGame:面向游戏的开放式 agentic 编程

摘要

游戏开发处于创意设计与复杂软件工程的交汇点,需要对游戏引擎、实时循环以及跨多个文件的紧密耦合状态进行协同编排。尽管大语言模型(LLMs)和代码 agents 目前可以轻松解决孤立的编程任务,但当被要求根据高层设计产出完整的可玩游戏时,它们往往会陷入困境,在跨文件不一致、场景连线中断以及逻辑不连贯等方面表现不佳。为了弥补这一差距,我们推出了 OpenGame,这是首个专为端到端 Web 游戏创作而设计的开源 agentic 框架。该框架的核心是“游戏技能”(Game Skill),这是一种可重用且不断进化的能力,由两部分组成:一是“模板技能”(Template Skill),它能从经验中积累并构建项目骨架库;二是“调试技能”(Debug Skill),它维护着一套经过验证的修复协议。两者协同作用,使 agent 能够搭建稳定的架构并系统性地修复集成错误,而非仅仅修补孤立的语法错误。驱动该框架的是 GameCoder-27B,这是一款专门通过三阶段流水线——持续预训练(continual pre-training)、监督微调(supervised fine-tuning)以及基于执行的强化学习(execution-grounded reinforcement learning)——来掌握游戏引擎技术的代码 LLM。由于验证交互式可玩性本质上比检查静态代码更为困难,我们进一步推出了 OpenGame-Bench。这是一个评估流水线,通过无头浏览器(headless browser)执行和视觉语言模型(VLM)判定,从构建健康度(Build Health)、视觉可用性(Visual Usability)和意图一致性(Intent Alignment)三个维度对 agent 的游戏生成能力进行评分。在 150 个多样化的游戏提示词测试中,OpenGame 树立了新的技术标杆(state-of-the-art)。我们希望 OpenGame 能推动代码 agents 超越离散的软件工程问题,向构建复杂的、交互式的现实世界应用迈进。我们的框架将完全开源。

一句话总结

研究人员提出了 OpenGame,这是首个专为端到端 Web 游戏创作设计的开源 agentic 框架。该框架利用 Game Skill 将不断增长的项目模板库与系统化的调试协议相结合,以克服跨文件不一致和逻辑不连贯的问题。

核心贡献

  • 本文介绍了 OpenGame,这是一个开源 agentic 框架,旨在利用 Phaser 引擎根据自然语言规范进行端到端 Web 游戏创作。
  • 该工作提出了 Game Skill 机制,利用 Template Skill 实现稳定的项目脚手架,并利用 Debug Skill 进行累积式错误修复,从而解决跨文件不一致问题。
  • 开发了领域专用基础模型 GameCoder-27B,以及动态评估流水线 OpenGame-Bench,用于衡量构建健康度、视觉可用性和意图对齐度。

引言

自动化游戏开发需要对实时循环、物理引擎以及跨多个文件的紧密耦合状态进行复杂的编排。虽然通用型大语言模型可以解决孤立的编程任务,但由于逻辑不连贯、特定引擎知识缺失以及跨文件不一致,它们在端到端游戏创作方面往往表现不佳。研究人员利用这些挑战引入了 OpenGame,这是一个专为端到端 Web 游戏创作设计的开源 agentic 框架。其贡献包括:具备 Game Skill 能力(利用演进的模板和动态调试协议来稳定项目架构)、名为 GameCoder-27B 的领域专用模型,以及 OpenGame-Bench(一种评估动态可玩性而非仅仅是静态代码正确性的新型评估流水线)。

数据集

研究人员引入了 OpenGame-Bench,这是一个旨在评估 AI agent 在多文件游戏开发中表现的基准测试。数据集详情如下:

  • 数据集组成与来源:该基准测试由 150 个源自自然语言提示词的独特任务组成。这些提示词来源于精选的公开 game-jam 仓库和 AI 辅助设计简报。所有任务均经过人工验证,以确保在 2D Web 框架内技术上可行。
  • 任务多样性与子集:150 个任务涵盖五种不同的游戏类型:平台跳跃、俯视角射击、益智游戏、街机经典和策略游戏。任务按逻辑类型进行分类,例如基于网格的移动(如推箱子或国际象棋)和重 UI 交互(如卡牌游戏或视觉小说)。
  • 处理与提示词增强:为了防止模型默认采用单文件实现并测试结构化的 agentic 能力,研究人员在所有基准提示词中增加了使用 Phaser 3 框架的明确指令。对于某些原型(如平台跳跃游戏),研究人员利用了结构化元数据,包括 ASCII 层级设计图例以及特定的物理和行为模式。
  • 评估与指标:研究人员使用了一个通过无头浏览器运行的引擎无关评估层。成功的运行必须能够正确构建、通过本地 HTTP 服务器提供服务且无致命错误,并至少生成一张非空截图。性能从三个维度进行衡量:构建健康度(编译和运行时稳定性)、视觉可用性(视觉连贯性和动画)以及意图对齐度(由 Vision-Language Model 判断对需求的遵循程度)。为了应对随机性,每个任务使用不同的随机种子进行三次评估。

方法

OpenGame 框架将领域专用代码模型与结构化多模态编码 agent 集成,以实现自主游戏生成。整体架构由三个互连的组件组成:多阶段代码模型训练流水线、自主 agent 工作流,以及用于完善可复用游戏开发技能的 agent 演进模块。训练流水线为基础模型建立了特定引擎的先验知识,而 agent 工作流通过六阶段过程将自然语言游戏创意转化为可运行的项目,演进模块则利用积累的经验持续改进结构化脚手架和修复行为。

基础模型 GameCoder-27B 构建在 Qwen3.5-27B 骨干网络之上,通过三阶段流水线进行训练,以获取交互式 Web 游戏开发的领域特定知识。第一阶段是持续预训练 (CPT),通过从开源 Phaser 和 JavaScript/TypeScript 游戏仓库以及官方文档和社区教程中汇编大规模语料库,使模型适应该领域。这一阶段建立了关于游戏循环、物理系统、资源使用和状态管理模式的强大先验。第二阶段是监督微调 (SFT),通过使用 gpt-codex5.1 生成复杂的游戏设计提示词,并使用 minimax2.5 生成高质量目标解决方案,从而合成多样化的问答数据集,使模型符合指令遵循要求。这种合成蒸馏教会了模型将抽象的创意意图转换为具体的代码结构。最后阶段是强化学习 (RL),通过在组件层面应用基于执行的反馈来优化代码生成。模型合成单文件游戏逻辑和目标功能模块,并根据预定义的单元测试进行评估。奖励根据执行成功率和综合测试通过率计算,在下游 agent 将这些构建块组装成完整的多文件项目之前,使模型具备确定性的、可执行的逻辑。

自主 agent 工作流通过六个操作阶段编排生成过程:初始化与分类、脚手架搭建、设计生成、资源合成、代码实现和验证。工作流始于初始化与分类,其中 agent 调用 classify-game-type 工具来解析用户的自然语言请求。该工具应用“物理优先分类”规则,根据物理约束和空间机制而非模糊的类型标签对任务进行分类,从而建立宏观层面的执行计划。分类完成后,agent 使用 run_shell_command 执行脚手架程序,将共享核心、适当的 modules/{archetype} 代码库和相关的架构文档复制到工作区,创建稳定的结构基准。随后,agent 调用 generate-gdd 生成技术性的游戏设计文档 (GDD),动态从脚手架文档中加载特定原型的 API 约束以确保可行性。实现路线图从 GDD 中提取,并使用 todo_write 工具细化为具体的、针对特定文件的操作。在资源合成阶段,agent 读取 asset_protocol.md 以确保参数合规,并调用 generate-game-assets,利用多模态生成模型根据 GDD 的资源注册表合成背景、角色动画、静态物品和音频资源。对于基于瓦片的游戏,generate-tilemap 将 ASCII 布局转换为结构化的 JSON tilemaps。agent 通过读取生成的 asset-pack.json 记录实现过程中所需的精确纹理和资源键,从而减少下游资源引用的幻觉。接下来是上下文感知的代码实现,agent 将 GDD 参数合并到 gameConfig.json 中以强制执行数据驱动的接口。为了缓解上下文溢出,采用了“三层读取策略”,逐步加载 API 摘要、目标源文件和实现指南。代码生成遵循模板方法模式,agent 复制模板文件并覆盖指定的钩子方法,在保留基类确定性生命周期管理的同时注入游戏特定逻辑。最后一个阶段是验证与自我修正,agent 使用 debug_protocol.md 对常见的生成失败模式进行静态自我审查,在无头浏览器评估下执行 npm run build 和 npm run test,并解析编译器输出以定位并迭代修复错误的脚本,直到获得可玩的游戏。

agent 演进模块通过可复用的游戏开发技能(即 Template Skill 和 Debug Skill)增强框架能力。Template Skill 通过维护一个演进的模板库 L\mathcal{L}L 来稳定项目结构,该库从最小元模板 M0\mathcal{M}_0M0 增长为反映重复物理和交互模式的专业模板族。对于新请求,agent 从 L\mathcal{L}L 中选择合适的模板族并进行实例化以获得稳定的项目骨架,通过有限的扩展点引入游戏特定内容,从而缩小搜索空间并提高跨文件一致性。Debug Skill 通过维护一个根据观察到的构建、测试和运行时结果不断更新的动态调试协议 P\mathcal{P}P 来应对系统性失败。每当发生失败时,agent 会记录一个包含错误特征、根本原因和已验证修复方案的结构化条目,并将其添加到 P\mathcal{P}P 中供未来任务复用。该协议包括针对高频不一致类别(如资源键不匹配或无效场景转换)的轻量级执行前验证,并将重复的失败模式泛化为可复用的规则。这种累积且持久的调试知识随着时间的推移提高了可靠性,且不会增加提示词复杂度。Game Skill 的整体执行(如算法 1 所示)结合了这些组件:agent 选择模板族,实例化项目骨架,生成游戏特定内容,并迭代地验证、诊断和修复项目,直到其变得可构建且可运行,并将验证过的修复方案记录回协议中。

实验

OpenGame 在包含 150 个浏览器游戏任务的基准测试上进行了评估,使用自动化流水线衡量构建正确性、视觉质量和意图满足度。结果表明,OpenGame 通过其结构化规划和迭代验证,在保持用户指定的机制方面优于强大的直接 LLM 基准和已有的 agentic 框架,从而确立了新的先进水平 (state of the art)。消融研究表明,系统的成功源于领域专用模型训练、模板驱动的 agentic 工作流以及演进的专业游戏技能库(有助于实现鲁棒的调试和多文件合成)的结合。

研究人员进行了消融研究,以评估 OpenGame 框架内不同训练组件对 GameCoder-27B 模型性能的贡献。结果显示,训练的每个阶段——持续预训练、监督微调和强化学习——都在构建健康度、视觉可用性和意图对齐度方面带来了增量改进,其中监督微调对意图对齐度的提升最大。最终模型在所有指标上均达到了比基础模型更高的性能,表明领域专用训练增强了模型生成功能完备且符合意图的游戏代码的能力。增量训练阶段提高了所有评估指标的性能。监督微调在意图对齐度方面带来了最大的增益。最终模型在所有指标上都优于基础模型,证明了领域专用训练的价值。

研究人员进行了消融研究,以分析 OpenGame 框架中不同组件的贡献,重点关注模板架构和调试策略。结果显示,将完整的演进库与全面的调试协议相结合,在所有指标上均实现了最高性能,证明了在游戏生成中结构化脚手架和迭代验证的重要性。结合完整的演进库与全面的调试协议在所有指标上实现了最高性能。与静态骨架或部分演进库相比,使用完整的演进库显著提高了性能。完整的动态协议优于静态规则清单和执行后修复,突显了主动调试机制的重要性。

研究人员在浏览器游戏任务基准测试上评估了 OpenGame,衡量其在构建正确性、视觉质量和意图满足度方面的表现。结果显示,OpenGame 达到了先进水平,特别是在使用 Claude Sonnet 4.6 时,在所有三个指标上均优于所有直接 LLM 和 agentic 框架,其中在意图对齐度方面的增益最大。框架的结构化规划、基于模板的脚手架和迭代验证有助于其卓越的性能,尤其是在以物理为中心的游戏类型中。OpenGame 在所有评估指标上均达到了先进水平,优于所有直接 LLM 和 agentic 框架。最大的提升体现在意图对齐度上,表明能够更好地保留用户指定的游戏机制。OpenGame 在平台跳跃和俯视角射击等以物理为中心的游戏类型中表现最强,而在策略和益智/UI 等抽象类型中性能有明显下降。

研究人员在浏览器游戏任务基准测试上评估了 OpenGame,衡量其在构建正确性、视觉质量和意图满足度方面的表现。结果显示,OpenGame 达到了先进水平,特别是在平台跳跃和俯视角射击等以物理为中心的游戏类型中,其在意图对齐度上显著优于 Cursor 基准。框架的结构化规划和迭代验证有助于其更好地对齐用户指定的机制。在所有游戏类型中,OpenGame 的意图对齐度均高于 Cursor 基准,在平台跳跃和俯视角射击游戏中的增益最大。该框架在以物理为中心的游戏中表现强劲,但在策略和益智/UI 等抽象类型中表现较为吃力,因为这些类型中的隐性逻辑错误更难检测。OpenGame 的有效性归功于其结构化规划、基于模板的脚手架和迭代验证流水线,这些机制能更好地保留用户指定的机制。

研究人员通过将 OpenGame 的性能与各种基准进行比较,并进行消融研究以分离其架构的关键组件,从而对 OpenGame 系统进行了评估。完整的 OpenGame 系统在所有指标上均获得了最高分,当移除关键工作流机制时,性能会出现显著下降。结果表明,结构化规划和迭代验证对于在游戏生成中维持构建稳定性和意图满足度至关重要。完整的 OpenGame 系统在所有评估指标上均优于所有消融配置。移除钩子驱动实现 (Hook-Driven Implementation) 会导致最大的性能下降,尤其是在构建健康度和意图对齐度方面。缺乏三层读取策略会导致意图对齐度显著下降,表明其在管理复杂的多文件合成方面具有重要意义。

通过一系列消融研究和基准比较,研究人员评估了领域专用训练、模板架构和迭代验证在 OpenGame 框架内的贡献。结果表明,顺序训练阶段以及演进库与主动调试协议的集成显著增强了构建稳定性和意图对齐度。最终,完整的 OpenGame 系统在各种浏览器游戏任务中达到了先进水平,由于其结构化规划和鲁棒的实现机制,在以物理为中心的游戏类型中表现尤为出色。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供