Command Palette
Search for a command to run...
CogVideo:基于Transformer的文本到视频生成大规模预训练
CogVideo:基于Transformer的文本到视频生成大规模预训练
Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang
摘要
大规模预训练的Transformer模型在文本生成(如GPT-3)和文本到图像生成(如DALL-E与CogView)领域取得了里程碑式进展。然而,其在视频生成领域的应用仍面临诸多挑战:潜在的巨大计算开销使得从零开始训练难以承受;同时,文本-视频数据集的稀缺性以及文本与视频之间语义关联的薄弱,限制了模型对复杂运动语义的理解能力。在本研究中,我们提出了一款拥有90亿参数的Transformer模型——CogVideo,该模型通过继承已预训练的文本到图像模型CogView2进行训练。此外,我们还提出了一种多帧率分层训练策略,以更有效地对齐文本与视频片段。作为(可能)首个开源的大规模预训练文本到视频生成模型,CogVideo在机器评估与人工评估中均显著优于所有现有公开模型。