11 天前

一种通过无文本视频实现文本到视频生成大规模扩展的方案

Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
一种通过无文本视频实现文本到视频生成大规模扩展的方案
摘要

基于扩散模型的文本到视频生成在过去一年中取得了显著进展,但仍落后于文本到图像生成。其中一个关键原因在于公开可用数据集规模有限(例如,WebVid10M仅包含约1000万对视频-文本数据,而LAION则拥有约50亿对图像-文本数据),这主要是由于视频字幕标注成本高昂。相比之下,从YouTube等视频平台直接收集未标注的视频片段则要容易得多。受此启发,我们提出了一种新颖的文本到视频生成框架——TF-T2V,该框架能够直接利用无文本标注的视频进行学习。其核心思想在于将文本解码过程与时间建模过程分离。为此,我们设计了内容分支(content branch)与运动分支(motion branch),二者通过共享权重进行联合优化。基于这一架构,我们研究了将训练数据规模扩大一倍(即使用仅包含视频的WebVid10M数据集,并额外加入随机收集的无文本视频)所带来的影响,结果令人鼓舞:生成质量显著提升(FID从9.67降至8.19,FVD从484降至441),充分证明了该方法具有良好的可扩展性。此外,我们还发现,当在后续训练中重新引入部分带文本标签的数据时,模型性能仍能持续提升(FID从8.19进一步降至7.64,FVD从441降至366)。最后,我们在原生文本到视频生成与组合式视频合成两种范式下,验证了该方法的有效性与泛化能力。相关代码与模型将公开发布于 https://tf-t2v.github.io/。

一种通过无文本视频实现文本到视频生成大规模扩展的方案 | 最新论文 | HyperAI超神经