Google DeepMind stellt Genie 3 vor: Echtzeit-3D-Welten per Textbefehl
谷歌DeepMind于8月5日发布新一代世界模型Genie 3,标志着人工智能在构建动态、可交互虚拟环境方面取得关键突破。该模型能根据用户输入的文本或图像提示,实时生成高分辨率、支持长期互动的3D虚拟世界,供人类与AI智能体共同探索。相较于2024年底推出的Genie 2(仅支持10–20秒交互、360p分辨率),Genie 3实现质的飞跃:以720p分辨率、24fps流畅运行,支持数分钟级别的持续交互,并首次具备视觉记忆能力——即使用户离开场景后再返回,先前的修改(如墙上涂鸦)仍能保留,显著提升沉浸感与环境一致性。这一长时程一致性被研究团队视为“涌现能力”,并非预设规则,而是模型在复杂训练中自发形成的认知结构。 Genie 3的核心创新在于“可提示的世界事件”功能,允许用户在互动过程中通过自然语言动态改变世界状态。例如,在雪地场景中输入“加入一群鹿”即可实时生成动物,或召唤“穿天鹅绒背心的大猩猩”等超现实角色。这种高度灵活的沙盒式交互,使生成环境从静态探索对象转变为可被自由塑造的数字生态。 DeepMind研发Genie系列的深层目标并非娱乐,而是推动通用人工智能(AGI)的发展。研究人员认为,世界模型是训练具身智能体(embodied agents)的理想平台。为此,DeepMind已将Genie 3用于其通用AI代理SIMA的训练,使其学习在多样化虚拟环境中理解并执行自然语言指令,如“靠近水管”或“打开门”。这种方式大幅降低训练成本,同时提供远超现实世界的多样性与可控性,为未来工业机器人、自主物流系统等应用奠定基础。 尽管进展显著,Genie 3仍存在明显局限:AI智能体的动作空间受限,复杂操作仍依赖文本指令;多智能体协同互动能力薄弱;地理真实性不足,难以精准还原现实地点;文本渲染能力较弱,仅在提示中明确要求时才能生成清晰文字。此外,当前互动时长虽达数分钟,但距离真正意义上的持久模拟仍有差距。 目前Genie 3未对公众开放,仅提供有限研究预览版给少数学者与创作者,旨在审慎评估其潜在风险,如虚假信息生成、伦理滥用等,并推动负责任的技术演进。尽管距离《星际迷航》式“全息甲板”尚远,Genie 3作为首个实现真正实时交互的通用世界模型,已为AGI发展开辟了清晰可行的技术路径,被视为通往下一代人工智能基础设施的重要里程碑。