HyperAI超神经

谷歌DeepMind于8月5日发布其“世界模型”系列最新成果——Genie 3，标志着AI生成虚拟世界迈入实时可交互的新阶段。该模型仅需一句文本或图像提示，即可即时生成一个3D可玩环境，支持用户与AI智能体共同探索与互动。相比此前版本，Genie 3实现多项突破。它以720p分辨率、24帧每秒的流畅度运行，支持持续数分钟的交互，远超前代产品仅10至20秒的交互时长。更关键的是，Genie 3具备初步“记忆”能力——环境状态可保持约一分钟。例如，用户在墙上涂鸦后离开，再返回时，涂鸦仍清晰可见，有效解决了以往模型“遗忘”或前后矛盾的问题。这种长时一致性被视为模型的“涌现能力”，并非人为编码，使虚拟世界更具动态与连贯性。 Genie 3还引入“可提示的世界事件”功能，允许用户在互动中通过新指令动态改变环境。例如，在滑雪场景中输入“加入一群鹿”，系统会实时生成角色；或召唤“穿天鹅绒背心的大猩猩”等超现实元素，极大增强了创造自由度，使生成世界更像一个可随意编辑的“数字沙盒”。谷歌研发此模型的深层目标并非娱乐，而是推动通用人工智能（AGI）的发展。DeepMind认为，世界模型是训练具身智能体的关键。目前，Genie 3已用于训练通用AI智能体SIMA，使其学会在不同虚拟环境中理解自然语言指令、导航、互动并应对突发状况，为未来机器人、工业自动化等领域提供低成本、高效率的训练平台。尽管进展显著，Genie 3仍存在局限：AI智能体动作范围有限，复杂操作仍依赖文本指令；多智能体协同互动能力不足；无法精确还原真实地理场景；文本渲染能力较弱，仅在提示中明确要求时才能生成清晰文字。此外，当前版本未向公众开放，仅提供有限研究预览，供少数学者和创作者使用，以评估潜在风险，确保技术负责任地发展。尽管距离《星际迷航》中“全息甲板”般的终极体验仍有距离，Genie 3作为首个真正实现实时交互的通用世界模型，已为通往下一代AI与虚拟现实融合开辟了清晰路径。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

谷歌发布Genie 3：一句话生成可玩的实时游戏世界，智能体自由互动

相关链接

Command Palette

谷歌发布Genie 3：一句话生成可玩的实时游戏世界，智能体自由互动

相关链接

Command Palette

谷歌发布Genie 3：一句话生成可玩的实时游戏世界，智能体自由互动

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟