谷歌发布Genie 3:一句话生成可玩的实时游戏世界,智能体自由互动
谷歌DeepMind于8月5日发布其“世界模型”系列最新成果——Genie 3,标志着AI生成虚拟世界迈入实时可交互的新阶段。该模型仅需一句文本或图像提示,即可即时生成一个3D可玩环境,支持用户与AI智能体共同探索与互动。 相比此前版本,Genie 3实现多项突破。它以720p分辨率、24帧每秒的流畅度运行,支持持续数分钟的交互,远超前代产品仅10至20秒的交互时长。更关键的是,Genie 3具备初步“记忆”能力——环境状态可保持约一分钟。例如,用户在墙上涂鸦后离开,再返回时,涂鸦仍清晰可见,有效解决了以往模型“遗忘”或前后矛盾的问题。这种长时一致性被视为模型的“涌现能力”,并非人为编码,使虚拟世界更具动态与连贯性。 Genie 3还引入“可提示的世界事件”功能,允许用户在互动中通过新指令动态改变环境。例如,在滑雪场景中输入“加入一群鹿”,系统会实时生成角色;或召唤“穿天鹅绒背心的大猩猩”等超现实元素,极大增强了创造自由度,使生成世界更像一个可随意编辑的“数字沙盒”。 谷歌研发此模型的深层目标并非娱乐,而是推动通用人工智能(AGI)的发展。DeepMind认为,世界模型是训练具身智能体的关键。目前,Genie 3已用于训练通用AI智能体SIMA,使其学会在不同虚拟环境中理解自然语言指令、导航、互动并应对突发状况,为未来机器人、工业自动化等领域提供低成本、高效率的训练平台。 尽管进展显著,Genie 3仍存在局限:AI智能体动作范围有限,复杂操作仍依赖文本指令;多智能体协同互动能力不足;无法精确还原真实地理场景;文本渲染能力较弱,仅在提示中明确要求时才能生成清晰文字。此外,当前版本未向公众开放,仅提供有限研究预览,供少数学者和创作者使用,以评估潜在风险,确保技术负责任地发展。 尽管距离《星际迷航》中“全息甲板”般的终极体验仍有距离,Genie 3作为首个真正实现实时交互的通用世界模型,已为通往下一代AI与虚拟现实融合开辟了清晰路径。