6 个月前

摘要

文本到视频生成旨在根据给定的文本提示生成相应的视频内容。近期，一些商业视频生成模型已能够以极低的噪声、出色的细节表现以及较高的美学评分生成逼真的视频。然而，这些模型依赖于大规模、经过严格筛选且高质量的视频数据集，而这些数据集并未向学术社区开放。相比之下，许多现有研究工作采用低质量的WebVid-10M数据集进行模型训练，由于模型在训练过程中被优化以适应该低质量数据分布，因此难以生成高质量视频。在本研究中，我们探讨了基于Stable Diffusion扩展而来的视频模型的训练策略，并研究了利用低质量视频与合成的高质量图像来构建高质量视频模型的可行性。我们首先分析了视频模型中空间模块与时间模块之间的关联性，以及其在面对低质量视频分布偏移时的表现。实验发现，若对所有模块进行完整训练，空间模块与时间模块之间的耦合程度会显著强于仅训练时间模块的情况。基于这一更强的模块耦合特性，我们通过使用高质量图像对空间模块进行微调，在不引入运动退化的情况下实现了从低质量分布向高质量分布的迁移，从而构建出一个通用的高质量视频生成模型。通过系统性评估，我们验证了所提出方法的优越性，尤其在图像质量、运动连贯性以及概念构图方面表现突出。

源 PDF