HyperAIHyperAI

Command Palette

Search for a command to run...

World Craft:通过文本创建可可视化世界的智能体框架

Abstract

大型语言模型(Large Language Models, LLMs)推动了生成式智能体模拟(如 AI Town)的发展,使其能够构建“动态世界”,在娱乐与科研领域具有巨大应用价值。然而,对于非专业用户,尤其是缺乏编程能力的群体而言,仅凭自身难以实现可视化环境的定制。为此,本文提出 World Craft——一种基于智能体的世界构建框架,仅通过用户的文本描述即可生成可执行且可视化的 AI Town 环境。该框架包含两个核心模块:World Scaffold 与 World Guild。World Scaffold 是一种结构化、简洁化的标准框架,用于高效开发交互式游戏场景,为 LLM 提供高效的支撑结构,以实现对类似 AI Town 的可执行环境的定制。World Guild 则是一个多智能体协作系统,能够从用户提供的粗略描述中逐步解析其意图,并合成构建 World Scaffold 所需的结构化内容(如环境布局、资源资产等)。此外,本文通过逆向工程构建了一个高质量的错误纠正数据集,以增强模型的空间理解能力,显著提升布局生成的稳定性与可控性。同时,我们设计了多维度评估指标,支持对生成效果的深入分析。大量实验结果表明,与现有的商业代码智能体(Cursor 和 Antigravity)以及主流大模型(Qwen3 与 Gemini-3-Pro)相比,本框架在场景构建能力与叙事意图传达方面均显著领先,为环境创作的民主化提供了一种可扩展、易用的解决方案。

一句话总结

来自盛大人工智能研究院、上海创新研究院、南开大学和复旦大学的研究人员提出了 World Craft,这是一种新颖的框架,使非专业人士能够通过结构化支架和意图驱动的多智能体合成,从文本生成可执行、可视化的 AI 城镇,其在可控性和叙事保真度方面优于主流大语言模型和代码代理。

主要贡献

  • World Craft 引入了一个双模块框架(World Scaffold 和 World Guild),使非专业人士能够直接从自然语言生成可执行、可视化的 AI 城镇环境,无需编程技能和分散的游戏引擎工具链。
  • World Guild 采用多智能体推理,弥合模糊用户描述与精确空间布局之间的语义鸿沟;World Scaffold 为大语言模型提供标准化接口以构建交互式场景,并辅以精选资产库确保物理和视觉一致性。
  • 该框架利用逆向工程错误修正数据集增强大语言模型的空间推理能力,并通过多维指标评估,证明其在场景构建和叙事意图保真度方面优于商业代码代理和主流大语言模型。

引言

作者利用大语言模型,通过让非程序员用纯文本描述场景,使交互式、可视化 AI 城镇(对娱乐和社会研究具有价值的模拟环境)的创建民主化。先前工具依赖分散的游戏引擎和预设地图,需要编码技能,排除了普通用户;而通用大语言模型在空间推理方面表现不佳,常生成物理上不可能的布局。其主要贡献是 World Craft,一个两部分框架:World Scaffold 为大语言模型标准化场景构建,World Guild 使用多智能体推理将模糊文本转化为精确布局,并通过一种新颖的“逆向合成”数据集增强空间修正能力。两者结合,实现从自然语言到可扩展、精确环境的生成,在布局保真度和意图对齐方面优于商业代码代理和主流大语言模型。

数据集

作者使用自建数据集,旨在教授大语言模型在物理约束下的空间推理和布局修正。其结构和使用方式如下:

  • 数据集来源涵盖四个领域:现实世界、文学、影视和 TRPG 游戏。每个领域贡献 125 个种子场景,按 4:1 分为训练集和保留测试集,以防止数据泄露。

  • 训练集通过风格增强扩展:560 个风格提示(如“赛博朋克”、“原始”)随机注入每个场景,生成 2,000 个多样化训练样本,以提升跨领域空间逻辑。

  • 黄金布局(G_gold)通过多阶段流水线构建:程序化房间生成、大语言模型分配功能属性、以及基于 12 区网格引导的无碰撞放置。教师模型和人类专家优化长尾案例,确保物理和逻辑正确性。

  • 从 G_gold 生成两个核心数据集:

    • 数据集 A:从语义描述(Z)到 G_gold 的映射,加上错误修正轨迹(G_error → G_gold 通过修正指令 C)。用于训练迭代修复。
    • 数据集 B:模拟用户指令(I),从 Z 重写为三种密度(短、中、长),教授模型将自然语言映射到布局规范。
  • 数据标注包括通过“混沌猴子”代理控制降级:每布局引入 2–15 个错误,使用四级扰动(权重 1:2:3:4),创建成对错误-修正示例。

  • 最终数据集规模:过滤约 5k 无效案例并手动修正约 1.2k 长尾样本后,约 14k 样本。

  • 元数据结构为四元组(M, A, L, P):场景元数据、资产定义、空间布局和物理/交互属性。布局基于网格,资产通过坐标和层命令(地面、墙、物体、NPC)放置。

  • 所有资产来自开源平台并匿名化。人类评估员在知情同意下参与,所有交互数据去标识化。

  • 数据集用于两阶段微调:首先从描述生成布局,然后通过轨迹学习修正错误。12 区网格和物理放置器确保生成过程中的空间一致性。

方法

作者采用协作式多智能体框架(称为 World Guild),解决将自然语言指令映射到结构化游戏场景布局的挑战。该框架将生成过程分解为一系列逻辑独立的阶段,每个阶段由专用智能体处理,从而缓解抽象文本描述与精确几何和物理规范之间的巨大语义鸿沟。整体架构(如框架图所示)协调四个核心智能体:语义增强器、布局管理器、质量保证批评者和资产艺术家,将用户指令转化为可玩的游戏场景。

过程始于语义增强器,接收用户指令 I\mathcal{I}I 并生成中间语义丰富的布局描述 Z\mathcal{Z}Z。该描述称为场景拓扑,捕捉场景的高层空间逻辑和功能分布,而不指定精确坐标。它定义核心组件之间的连通性及其粗略分布,有效创建空间草图,解决自然语言输入固有的歧义。此步骤对于将多样且常稀疏的用户提示标准化为连贯、逻辑结构至关重要,可指导后续空间规划。

布局管理器随后接收此抽象描述 Z\mathcal{Z}Z,执行接地过程,将其转换为具体初始布局文件 G0\mathcal{G}_0G0。该智能体负责从文本到可执行数据的跨模态转换,确定场景元数据 MMM、实例化资产库 AAA,并为布局层 LLL 中每个组件定义精确网格坐标和方向。管理器的功能是解析自然语言中的拓扑逻辑和相对位置约束,并将其映射为定量、精确的几何参数,从而生成具有层次结构和资产属性的完整布局文件。

为确保生成布局符合物理和逻辑约束,与质量保证批评者建立迭代反馈循环。在每轮 ttt 中,批评者对当前布局 Gt\mathcal{G}_tGt 执行基于规则的物理检查(如碰撞和连通性检测)和基于模型的语义评估。若发现缺陷,则生成具体修正指令 Ct\mathcal{C}_tCt。管理器随后根据这些指令执行目标空间编辑操作,生成修正布局 Gt+1\mathcal{G}_{t+1}Gt+1。此过程持续进行,直到所有检查通过或达到最大轮数,确保最终输出的合理性和逻辑自洽性。

最后,资产合成智能体(即艺术家)负责将布局设计 G\mathcal{G}G 中的资产定义集 AAA 转换为视觉资产。为解决风格碎片化问题,它采用检索增强的纹理合成策略。对于每个组件,从预建资产库 Dlib\mathcal{D}_{lib}Dlib 中检索参考图像 vrefv_{ref}vref,用作风格锚点,指导生成模型产生具有统一视觉风格的瓦片资源。World Scaffold 随后自动将这些生成的视觉资源与布局层 LLL 和属性集 PPP 组装,构建包含导航网格和交互逻辑的完整、可玩的游戏场景。

实验

  • 验证了逐步推理框架(增强器 + 管理器 + 批评者)在布局指标(RCS、OPS、OVD)上优于直接生成,确认任务解耦的有效性。
  • 解耦训练优于端到端微调;(8+32)B 模型组合优于(8+8)B,表明空间规划需要更高容量。
  • 修正数据训练实现迭代细化,指标在各轮次(T=0 至 4)稳定增长,而标准训练模型无此表现。
  • 在 300 样本测试集(100 种种子 × 3 种长度)上,该方法在不同指令长度下保持稳定性能,优于通用大语言模型的鲁棒性。
  • 自动化指标与人类偏好高度相关(平均 |r| > 0.90,κ = 0.60),验证指标可靠性。
  • 在速度(一次性生成 vs. 60 分钟调试)和质量(最高 HWR/VWR)上优于代码代理(Cursor、Antigravity),实现高保真模拟环境。
  • 消融实验显示资产库对视觉和谐性至关重要(VH ↑,VGG 损失 ↓);移除后 VSA-V 降低但 VSA-C 不受影响,证实风格一致性有助于视觉语言模型判断。
  • 视觉示例(场景 1–3)展示其在布局复杂性、对象密度和语义保真度方面优于基线和代码代理。

结果表明,所提方法在多个指标上优于基线模型。在布局设计、对象放置和视觉语义一致性方面持续优于 Open 和 Base 模型,尤其在较长指令上表现突出,同时在不同输入长度下保持稳定性能。该方法在处理复杂空间推理任务方面表现出鲁棒性,指标如无碰撞率、房间连通性评分和对象体积密度显著提升。

作者使用两阶段框架评估场景生成模型,与 Qwen3-235B 和 Gemini-3-Pro 在布局合理性、元素丰富性和视觉一致性方面进行比较。结果表明,其方法在布局合理性和视觉一致性方面得分最高,各指标可靠性强,同时在元素丰富性上优于开放和封闭基线。

作者使用多轮修正过程评估修正数据对模型细化的影响,表明在修正数据上训练的模型在所有四轮修正中,空间布局指标(如无碰撞率、房间连通性评分和对象放置评分)显著提升。相比之下,仅在标准数据上训练的模型提升微乎其微,表明修正数据对有效迭代细化至关重要。

作者通过消融研究评估资产库对视觉生成质量的影响。结果表明,包含资产库显著降低 VGG 损失并提高视觉和谐性,同时提升 VSA-V 得分,表明资产库有效解决风格差异,确保生成场景的视觉一致性。

作者采用两阶段训练策略提升场景生成,包含批评模块和修正数据显著增强布局和元素设计指标。结果表明,使用修正数据训练的所提方法在所有评估维度上得分最高,证明迭代细化的有效性和领域特定训练的重要性。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供