11 天前

一种通过无文本视频实现文本到视频生成大规模扩展的方案

Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang

摘要

基于扩散模型的文本到视频生成在过去一年中取得了显著进展，但仍落后于文本到图像生成。其中一个关键原因在于公开可用数据集规模有限（例如，WebVid10M仅包含约1000万对视频-文本数据，而LAION则拥有约50亿对图像-文本数据），这主要是由于视频字幕标注成本高昂。相比之下，从YouTube等视频平台直接收集未标注的视频片段则要容易得多。受此启发，我们提出了一种新颖的文本到视频生成框架——TF-T2V，该框架能够直接利用无文本标注的视频进行学习。其核心思想在于将文本解码过程与时间建模过程分离。为此，我们设计了内容分支（content branch）与运动分支（motion branch），二者通过共享权重进行联合优化。基于这一架构，我们研究了将训练数据规模扩大一倍（即使用仅包含视频的WebVid10M数据集，并额外加入随机收集的无文本视频）所带来的影响，结果令人鼓舞：生成质量显著提升（FID从9.67降至8.19，FVD从484降至441），充分证明了该方法具有良好的可扩展性。此外，我们还发现，当在后续训练中重新引入部分带文本标签的数据时，模型性能仍能持续提升（FID从8.19进一步降至7.64，FVD从441降至366）。最后，我们在原生文本到视频生成与组合式视频合成两种范式下，验证了该方法的有效性与泛化能力。相关代码与模型将公开发布于 https://tf-t2v.github.io/。