HyperAI超神经

Uni3C:统一增强三维相机与人体运动控制以生成视频

Chenjie Cao, Jingkai Zhou, Shikai Li, Jingyun Liang, Chaohui Yu, Fan Wang, Xiangyang Xue, Yanwei Fu
发布日期: 4/23/2025
Uni3C:统一增强三维相机与人体运动控制以生成视频
摘要

相机和人体运动控制在视频生成领域已得到广泛研究,但现有的方法通常分别处理这两个方面,受限于同时具备高质量标注的有限数据。为克服这一问题,我们提出了Uni3C,一个用于视频生成中精确控制相机和人体运动的统一3D增强框架。Uni3C包含两个关键贡献。首先,我们提出了一种即插即用的控制模块PCDController,该模块在冻结的视频生成主干网络上进行训练,利用单目深度感知的未投影点云来实现准确的相机控制。通过利用点云的强大3D先验知识和视频基础模型的强大能力,PCDController展现了出色的泛化性能,在主干网络冻结或微调的情况下均能表现出色。这种灵活性使得Uni3C的不同模块可以在特定领域进行训练,即要么专注于相机控制,要么专注于人体运动控制,从而减少了对联合标注数据的依赖。其次,我们提出了一个在推理阶段联合对齐的3D世界引导机制,该机制无缝整合了风景点云和SMPL-X角色模型以统一相机和人体运动的控制信号。广泛的实验验证了PCDController在驱动微调后的视频生成主干网络中的相机运动时具有强大的鲁棒性。Uni3C在相机可控性和人体运动质量方面显著优于竞争对手。此外,我们收集了专门设计的验证集,其中包含具有挑战性的相机移动和人体动作特征,以验证我们方法的有效性。 原文术语标注: - video generative backbone:视频生成主干网络 - unprojected point clouds:未投影点云 - PCDController:PCDController - SMPL-X:SMPL-X(一种用于建模人体姿态和形状的人体模型) - inference backbone:推理主干网络