HyperAIHyperAI

Command Palette

Search for a command to run...

Console

WorldPlay:面向实时交互式世界建模的长期几何一致性

Wenqiang Sun Haiyu Zhang Haoyuan Wang Junta Wu Zehan Wang Zhenwei Wang Yunhong Wang Jun Zhang Tengfei Wang Chunchao Guo

Abstract

本文提出了WorldPlay,一种流式视频扩散模型,能够实现具有长期几何一致性的实时交互式世界建模,有效解决了当前方法在速度与内存之间存在的权衡问题。WorldPlay 的强大性能源于三项关键创新:1)我们采用双动作表示(Dual Action Representation),以实现对用户键盘和鼠标输入的鲁棒动作控制;2)为保障长期一致性,我们提出重构上下文记忆(Reconstituted Context Memory),通过从历史帧中动态重建上下文,并利用时间重定位(temporal reframing)技术,使那些几何意义重要但时间久远的帧仍可被有效访问,从而显著缓解记忆衰减问题;3)我们进一步提出一种名为“上下文强制”(Context Forcing)的新型知识蒸馏方法,专为具备记忆感知能力的模型设计。该方法通过在教师模型与学生模型之间对齐记忆上下文,有效保持了学生模型对长程信息的利用能力,实现在实时运行速度下避免误差累积。综合来看,WorldPlay 能以24 FPS的帧率生成长达时序的720p流式视频,展现出卓越的几何一致性,性能优于现有技术,并在多种场景下表现出强大的泛化能力。项目主页与在线演示可访问:https://3d-models.hunyuan.tencent.com/world/https://3d.hunyuan.tencent.com/sceneTo3D


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供