Command Palette
Search for a command to run...

摘要
基于指令的视频编辑有望实现内容创作的民主化,然而其发展却因高质量、大规模训练数据的严重匮乏而受到严重制约。为此,我们提出了Ditto,一个全面的框架,旨在应对这一根本性挑战。Ditto的核心在于一种创新的数据生成流程,该流程融合了领先图像编辑器的创意多样性与上下文感知的视频生成能力,有效突破了现有模型在内容广度上的局限。为使该流程具备实际可行性,我们的框架通过采用一种高效且经过知识蒸馏的模型架构,并引入时间增强模块,成功解决了高成本与高质量之间的权衡难题,不仅显著降低了计算开销,还提升了视频时序的一致性。最后,为实现全面可扩展性,整个数据生成流程由一个智能代理驱动,该代理能够生成多样化的指令并严格筛选输出结果,从而在大规模下保障数据质量。基于此框架,我们投入超过12,000 GPU天,构建了Ditto-1M——一个包含一百万条高保真视频编辑样例的新数据集。我们基于Ditto-1M,采用课程学习策略训练了模型Editto。实验结果表明,该模型在指令遵循能力方面表现卓越,显著超越现有方法,确立了基于指令的视频编辑领域的新SOTA(state-of-the-art)水平。