摘要

视觉特效（VFX）是现代影视制作中不可或缺的视觉增强技术。尽管视频生成模型为VFX制作提供了成本效益较高的解决方案，但当前方法受限于针对单一特效的LoRA训练机制，导致生成能力局限于单一效果。这一根本性限制严重制约了需要空间可控复合特效的应用场景，即在指定位置同时生成多种特效的能力。然而，将多种特效整合至统一框架中面临重大挑战：不同特效之间的相互干扰，以及在多特效联合训练过程中出现的空间不可控问题。为应对上述挑战，我们提出Omni-Effects——首个能够生成提示引导型特效并实现空间可控复合特效的统一框架。该框架的核心包含两项关键创新：（1）基于LoRA的专家混合模型（LoRA-MoE），通过一组专家LoRA实现多样特效在统一模型内的集成，有效缓解跨任务间的干扰；（2）空间感知提示（Spatial-Aware Prompt, SAP），将空间掩码信息嵌入文本令牌中，从而实现精确的空间控制。此外，我们在SAP中引入独立信息流（Independent-Information Flow, IIF）模块，对各特效对应的控制信号进行隔离，防止不同特效之间产生非预期的混合。为推动本研究，我们构建了一个全面的VFX数据集Omni-VFX，该数据集通过一种结合图像编辑与首尾帧到视频（First-Last Frame-to-Video, FLF2V）合成的新型数据采集流程生成，并设计了一套专用的VFX评估框架，用于验证模型性能。大量实验结果表明，Omni-Effects不仅实现了精确的空间控制，还能生成多样化的特效，使用户能够同时指定所需特效的类别及其在画面中的具体位置。

源 PDF 查看代码