HyperAI

谷歌DeepMind于8月5日发布新一代世界模型Genie 3，标志着人工智能在构建动态、可交互虚拟环境方面取得关键突破。该模型能根据用户输入的文本或图像提示，实时生成高分辨率、支持长期互动的3D虚拟世界，供人类与AI智能体共同探索。相较于2024年底推出的Genie 2（仅支持10–20秒交互、360p分辨率），Genie 3实现质的飞跃：以720p分辨率、24fps流畅运行，支持数分钟级别的持续交互，并首次具备视觉记忆能力——即使用户离开场景后再返回，先前的修改（如墙上涂鸦）仍能保留，显著提升沉浸感与环境一致性。这一长时程一致性被研究团队视为“涌现能力”，并非预设规则，而是模型在复杂训练中自发形成的认知结构。 Genie 3的核心创新在于“可提示的世界事件”功能，允许用户在互动过程中通过自然语言动态改变世界状态。例如，在雪地场景中输入“加入一群鹿”即可实时生成动物，或召唤“穿天鹅绒背心的大猩猩”等超现实角色。这种高度灵活的沙盒式交互，使生成环境从静态探索对象转变为可被自由塑造的数字生态。 DeepMind研发Genie系列的深层目标并非娱乐，而是推动通用人工智能（AGI）的发展。研究人员认为，世界模型是训练具身智能体（embodied agents）的理想平台。为此，DeepMind已将Genie 3用于其通用AI代理SIMA的训练，使其学习在多样化虚拟环境中理解并执行自然语言指令，如“靠近水管”或“打开门”。这种方式大幅降低训练成本，同时提供远超现实世界的多样性与可控性，为未来工业机器人、自主物流系统等应用奠定基础。尽管进展显著，Genie 3仍存在明显局限：AI智能体的动作空间受限，复杂操作仍依赖文本指令；多智能体协同互动能力薄弱；地理真实性不足，难以精准还原现实地点；文本渲染能力较弱，仅在提示中明确要求时才能生成清晰文字。此外，当前互动时长虽达数分钟，但距离真正意义上的持久模拟仍有差距。目前Genie 3未对公众开放，仅提供有限研究预览版给少数学者与创作者，旨在审慎评估其潜在风险，如虚假信息生成、伦理滥用等，并推动负责任的技术演进。尽管距离《星际迷航》式“全息甲板”尚远，Genie 3作为首个实现真正实时交互的通用世界模型，已为AGI发展开辟了清晰可行的技术路径，被视为通往下一代人工智能基础设施的重要里程碑。

Verwandte Links

Verwandte Links

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Command Palette

Google DeepMind stellt Genie 3 vor: Echtzeit-3D-Welten per Textbefehl

Verwandte Links

Command Palette

Google DeepMind stellt Genie 3 vor: Echtzeit-3D-Welten per Textbefehl

Verwandte Links

Command Palette

Google DeepMind stellt Genie 3 vor: Echtzeit-3D-Welten per Textbefehl

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf