
摘要
视觉特效(VFX)是现代影视制作中不可或缺的视觉增强技术。尽管视频生成模型为VFX制作提供了成本效益较高的解决方案,但当前方法受限于针对单一特效的LoRA训练机制,导致生成能力局限于单一效果。这一根本性限制严重制约了需要空间可控复合特效的应用场景,即在指定位置同时生成多种特效的能力。然而,将多种特效整合至统一框架中面临重大挑战:不同特效之间的相互干扰,以及在多特效联合训练过程中出现的空间不可控问题。为应对上述挑战,我们提出Omni-Effects——首个能够生成提示引导型特效并实现空间可控复合特效的统一框架。该框架的核心包含两项关键创新:(1)基于LoRA的专家混合模型(LoRA-MoE),通过一组专家LoRA实现多样特效在统一模型内的集成,有效缓解跨任务间的干扰;(2)空间感知提示(Spatial-Aware Prompt, SAP),将空间掩码信息嵌入文本令牌中,从而实现精确的空间控制。此外,我们在SAP中引入独立信息流(Independent-Information Flow, IIF)模块,对各特效对应的控制信号进行隔离,防止不同特效之间产生非预期的混合。为推动本研究,我们构建了一个全面的VFX数据集Omni-VFX,该数据集通过一种结合图像编辑与首尾帧到视频(First-Last Frame-to-Video, FLF2V)合成的新型数据采集流程生成,并设计了一套专用的VFX评估框架,用于验证模型性能。大量实验结果表明,Omni-Effects不仅实现了精确的空间控制,还能生成多样化的特效,使用户能够同时指定所需特效的类别及其在画面中的具体位置。