HyperAIHyperAI
Back to Headlines

谷歌发布新一代世界模型Genie 3:一句话生成可玩的实时3D虚拟世界

منذ 3 أيام

谷歌 DeepMind 于8月5日发布其新一代世界模型 Genie 3,标志着人工智能在构建动态、可交互虚拟环境方面迈出关键一步。该系统能够根据用户输入的文本或图像提示,实时生成高分辨率、支持长期互动的3D虚拟世界,供人类与AI智能体共同探索和操作。 与前代产品相比,Genie 3 实现了质的飞跃。此前的 Genie 2 虽可生成可互动环境,但交互时长仅10至20秒,且分辨率低(360p),无法实现流畅体验。而 Genie 3 支持720p分辨率、24帧每秒的稳定运行,用户可连续互动数分钟,显著提升了沉浸感与实用性。更关键的是,它具备初步的“记忆”能力——系统能保持环境状态的一致性。例如,用户在房间墙上涂鸦后离开,再返回时涂鸦依然存在,避免了过去因“遗忘”导致的逻辑断裂问题。这种长时程一致性并非人为编码,而是模型在训练中自然涌现的能力,使生成的世界更具动态性和真实感。 Genie 3 还引入“可提示的世界事件”功能,允许用户在交互过程中通过新指令实时改变环境。比如,在雪景中输入“加入一群鹿”,系统便会动态生成角色;或召唤“穿天鹅绒背心的大猩猩”等超现实元素。这一特性赋予虚拟世界极强的可塑性,使其更像一个自由创造的“数字沙盒”。 这项技术的核心意义远超娱乐。DeepMind 将 Genie 3 视为迈向通用人工智能(AGI)的重要一步。通过在多样化、无限生成的虚拟环境中训练AI智能体,研究人员可高效提升其认知与行动能力。目前,该模型已被用于训练通用AI代理 SIMA(Scalable, Instructable, Multiworld Agent),使其学会理解自然语言指令,并在不同场景中完成如“靠近水管”等复杂任务。这种模拟训练方式为未来机器人、自动驾驶、工业自动化等领域提供了低成本、高效率的解决方案。 尽管成果显著,Genie 3 仍存在局限。AI智能体的动作能力有限,许多操作需依赖文本指令而非自主执行;多智能体在共享空间中的复杂协作仍难以实现;现实地理精度不足,文字渲染能力薄弱,仅在提示中明确要求时才能生成清晰文本。此外,当前的互动时长虽已延长至数分钟,但距离真正的长期沉浸式体验仍有差距。 目前,Genie 3 未对公众开放,仅向少数研究者和创作者提供有限预览版。谷歌强调此举旨在审慎评估潜在风险,推动负责任的技术发展。尽管距离《星际迷航》中的“全息甲板”尚远,Genie 3 作为首个实现真正实时交互的通用世界模型,已清晰勾勒出通往下一代数字环境的技术路径,为AI与人类协作开辟了全新可能。

Related Links

谷歌发布新一代世界模型Genie 3:一句话生成可玩的实时3D虚拟世界 | العناوين الرئيسية | HyperAI