3 小时前

Jiwen Liu Shujuan Li Zhixue Fang Xiaohan Li Yan Zhou Zijie Meng Zhimin Zhang Yawen Luo Guoxin Zhang Yu-Shen Liu

摘要

从参考视频中克隆相机运动是视频生成领域的一项重要任务，因为视频能够提供直观且精确的控制。现有方法要么直接使用无法处理多镜头生成的参数化表示，要么合成交叉配对数据，后者受限于数据稀缺问题，导致在复杂相机运动克隆任务中性能较差。为解决上述问题，我们提出了一种通用的相机运动表示方法，将相机编码为网格运动视频。该相机网格以可视化方式呈现相机参数，并支持整合多样化的轨迹以用于多镜头视频生成。在此基础上，我们提出了OmniDirector，这是一个在百万级相机网格-视频对上进行训练的统一框架。该框架协调角色、动作与相机，为多模态扩散Transformer提供导演级的控制能力。此外，我们设计了一种新颖的分层提示扩展agent，该agent通过理解信号间的关系来系统地描述相机运动与视觉内容，从而和谐地整合各类控制信号。大量实验结果表明，我们的框架具有卓越的性能与出色的可控性。项目主页：https://ymlinfeng.github.io/OmniDirector.github.io/

一句话总结

OmniDirector 通过在百万级相机网格-视频对上进行训练，将相机参数编码为网格运动视频，并利用分层提示扩展 Agent 协调控制信号，从而在无需跨配对数据的情况下实现通用的多镜头相机克隆。该方法在多模态扩散 Transformer 内对角色、动作与相机进行导演级统筹，大量实验验证了其卓越的性能与可控性。

核心贡献

提出相机网格表示法，将相机参数编码为视觉网格视频，用直观的视觉格式替代显式轨迹规范，原生支持多镜头生成。
基于该表示法，提出 OmniDirector 统一框架，在百万级相机网格-视频对上训练，协调角色、动作与相机动态，为多模态扩散 Transformer 提供导演级控制。
框架集成分层提示扩展 Agent，通过分析信号关系系统对齐相机运动与视觉内容，大量实验验证了其在复杂相机运动克隆任务中的卓越性能与可控性。

引言

精确的相机运动控制对于高质量视频生成至关重要，但现有方法难以在用户易用性与电影级复杂性之间取得平衡。当前方法要么依赖无法处理多镜头过渡的显式数学参数，要么依赖稀缺的跨配对视频数据，这会引入信息泄露并难以应对复杂的场景变化。本文利用一种新颖的相机网格表示法，将相机轨迹可视化于空 3D 场景的运动中，有效将电影级运镜与视觉内容解耦。在此基础上，提出 OmniDirector，这是一个在百万级数据集上训练的框架，能够在无需跨配对数据的情况下实现通用的多镜头相机克隆。该系统集成分层提示扩展 Agent，在多模态扩散 Transformer 内无缝协调相机动态、角色动作与视觉元素，为复杂视频生成提供导演级控制。

方法

OmniDirector 是一种专为通用多镜头相机克隆设计的框架，通过新颖的表示法与统一扩散架构，将相机运动与场景内容解耦。该方法的核心依赖于相机网格，用于在空环境中可视化空间变换。研究将复杂的现实世界抽象为简化的房间结构，仅包含 3D 网格线以指示坐标轴与运动轨迹。

如图所示：

该可视化方法通过在场景边界框内的地板与天花板平面上生成网格点，促进空间关系的模拟。这些平面的高度相对于平均场景高度 $\overline{y}$ 定义，并带有偏移量 $\Delta h$ ：

$y_{floor} = \overline{y} - \Delta h$ $y_{ceiling} = \overline{y} + \Delta h$

正交网格线构建空间框架，环形区域内的垂直线段产生隧道墙壁效果以增强深度感知。环形区域定义为 $W = \{ (x,z) \mid r < d_{traj}(x,z) < r + \delta \}$ ，其中 $d_{traj}$ 表示网格点到投影相机轨迹的距离。在不同姿态下渲染视图时，世界坐标通过 $P_c = R_i P_w + t_i$ 转换至相机坐标。

该表示法通过修改渲染方案扩展至特殊相机效果。

针对鱼眼畸变，采用 Kannala-Brandt 模型计算畸变角 $\theta_d = \theta (1 + k_1 \theta^2 + k_2 \theta^4 + k_3 \theta^6 + k_4 \theta^8)$ 。推拉变焦（Dolly zoom）效果通过保持主体尺寸比例 $\varphi \propto \rho$ 并利用画中画跟踪视图来复现透视拉伸。多镜头序列通过检测过渡节点，并将每个子片段渲染为独立镜头以确保场景一致性进行处理。

整体架构与工作流详见框架图。

顶部展示从参考视频生成相机网格的过程。训练阶段，中部说明相机网格如何通过 token 拼接注入多模态扩散 Transformer（MMDiT）。底部描绘包含分层提示扩展 Agent 的推理流程。

在架构中，相机网格 $G$ 与参考图像 $I$ 通过 3D-VAE 编码为潜在变量 $z_c$ 和 $z_I$ 。这些变量沿帧维度与视频噪声潜在变量 $Z_v$ 拼接，形成 $z_{vis} = \text{Concat}(z_I, z_v, z_c)$ 。该表示法被分块化为 tokens $\mathbf{Z}_{vis}$ 并通过 3D 卷积进行处理。文本条件单独编码，并在 MMDiT 块内通过联合注意力机制融合。更新规则为 $\mathbf{Z}_{vis}^{(l+1)} = \text{FFN}(\text{Attention}(\text{LN}(\mathbf{Z}_{vis}^{(l)}), \mathbf{Z}_t^{(l)})) + \mathbf{Z}_{vis}^{(l)}$ 。

为增强几何理解能力，引入自重建目标，其中 30% 的训练样本要求模型重建相机网格本身，以防止对映射中的虚假相关性过拟合。

推理阶段，分层提示扩展 Agent 负责协调控制信号。该 Agent 通过分析镜头间过渡与镜头内姿态变化生成相机提示。对姿态增量 $\Delta P = [\Delta R \mid \Delta t]$ 进行分析以确定运动轴与速度。弧形运镜通过特定规则识别，例如左弧形对应 $\Delta \theta_{yaw} > 0$ 与 $\Delta x < 0$ 。多模态大语言模型对这些描述进行细化，并与参考图像及用户提示融合。自适应无分类器引导策略为视觉无条件分支采用黑色背景，并结合由粗到细的去噪调度，优先保障全局结构后再处理局部细节。

实验

OmniDirector 在包含一千多个精选视频样本的多样化数据集上进行评估，以对比现有方法检验其相机控制能力、镜头过渡精度与视觉保真度。消融实验证实，该模型依赖多阶段提示工程策略：多模态信号融合最小化参考泄露，镜头间引导保持剪辑处的语义连续性，自适应无分类器引导确保相机运动的响应性。定性分析表明，系统能够以高合理性稳定克隆复杂相机轨迹与过渡语义，同时在不重新训练的情况下展现出对替代视觉输入的鲁棒零样本泛化能力。总体而言，实验验证 OmniDirector 在多种电影与商业领域中实现了卓越性能与和谐的相机克隆效果。

下表将所提方法与 Seedance2.0、CamCloneMaster 及 LTX-LoRA 在相机精度、过渡精度与泄露率方面进行对比。结果表明，所提方法在所有指标上均表现优异，在保持最低泄露率的同时展现出最低的错误率与最高的精度得分。该方法具有卓越的相机精度，相对旋转与平移误差最低。与其他方法相比，其过渡精度显著提升，尤其在语义一致性方面。该方法在帧级与镜头级均呈现最低泄露率，表明内容保真度更优。

下表呈现了 GSB（Good/Same/Bad）成对比较结果，从相机控制、视觉质量与叙事一致性三个维度评估所提方法与基线模型的差异。结果表明，相对于总样本量，积极或中性结果占比极高，验证了该方法在生成视频内容方面的有效性。视觉质量获得最高评价，表现出优于基线的性能。相机控制呈现显著相对优势，积极结果比例较高。叙事一致性得到有效维持，获得较高比例的正面评价。

消融实验表明，包含语义融合、镜头间提示与自适应 CFG 的完整模型在所有指标上均优于消融变体。移除任一组件均会导致相机精度下降、过渡精度降低或泄露率上升。具体而言，语义融合对最小化泄露至关重要，而镜头间提示则是维持过渡高语义精度的关键。完整模型实现了最佳的相机精度与最低的泄露率。移除语义融合会导致泄露率升高及整体性能下降。省略镜头间提示则会引起语义过渡精度的显著下滑。

评估通过定量基准测试、成对质量评估与消融实验，将所提方法与现有视频生成模型进行对比。基准对比显示，该方法在相机控制、语义过渡平滑度与内容保真度方面均优于替代方案。成对评估进一步证实，生成序列在视觉质量与叙事一致性方面表现强劲。最后，消融实验验证了语义融合、镜头间提示与自适应无分类器引导的集成对维持这些性能提升至关重要。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 小时前

Jiwen Liu Shujuan Li Zhixue Fang Xiaohan Li Yan Zhou Zijie Meng Zhimin Zhang Yawen Luo Guoxin Zhang Yu-Shen Liu

摘要

一句话总结

核心贡献

提出相机网格表示法，将相机参数编码为视觉网格视频，用直观的视觉格式替代显式轨迹规范，原生支持多镜头生成。
基于该表示法，提出 OmniDirector 统一框架，在百万级相机网格-视频对上训练，协调角色、动作与相机动态，为多模态扩散 Transformer 提供导演级控制。
框架集成分层提示扩展 Agent，通过分析信号关系系统对齐相机运动与视觉内容，大量实验验证了其在复杂相机运动克隆任务中的卓越性能与可控性。

引言

方法

如图所示：

$y_{floor} = \overline{y} - \Delta h$ $y_{ceiling} = \overline{y} + \Delta h$

该表示法通过修改渲染方案扩展至特殊相机效果。

整体架构与工作流详见框架图。

为增强几何理解能力，引入自重建目标，其中 30% 的训练样本要求模型重建相机网格本身，以防止对映射中的虚假相关性过拟合。

实验

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

OmniDirector：无需交叉配对数据的通用多帧相机克隆

Jiwen Liu Shujuan Li Zhixue Fang Xiaohan Li Yan Zhou Zijie Meng Zhimin Zhang Yawen Luo Guoxin Zhang Yu-Shen Liu1 more

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OmniDirector：无需交叉配对数据的通用多帧相机克隆

Jiwen Liu Shujuan Li Zhixue Fang Xiaohan Li Yan Zhou Zijie Meng Zhimin Zhang Yawen Luo Guoxin Zhang Yu-Shen Liu1 more

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OmniDirector：无需交叉配对数据的通用多帧相机克隆

Jiwen Liu Shujuan Li Zhixue Fang Xiaohan Li Yan Zhou Zijie Meng Zhimin Zhang Yawen Luo Guoxin Zhang Yu-Shen Liu1 more

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Jiwen Liu Shujuan Li Zhixue Fang Xiaohan Li Yan Zhou Zijie Meng Zhimin Zhang Yawen Luo Guoxin Zhang Yu-Shen Liu

Jiwen Liu Shujuan Li Zhixue Fang Xiaohan Li Yan Zhou Zijie Meng Zhimin Zhang Yawen Luo Guoxin Zhang Yu-Shen Liu

Jiwen Liu Shujuan Li Zhixue Fang Xiaohan Li Yan Zhou Zijie Meng Zhimin Zhang Yawen Luo Guoxin Zhang Yu-Shen Liu