8 个月前

Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang

摘要

大规模预训练的Transformer模型在文本生成（如GPT-3）和文本到图像生成（如DALL-E与CogView）领域取得了里程碑式进展。然而，其在视频生成领域的应用仍面临诸多挑战：潜在的巨大计算开销使得从零开始训练难以承受；同时，文本-视频数据集的稀缺性以及文本与视频之间语义关联的薄弱，限制了模型对复杂运动语义的理解能力。在本研究中，我们提出了一款拥有90亿参数的Transformer模型——CogVideo，该模型通过继承已预训练的文本到图像模型CogView2进行训练。此外，我们还提出了一种多帧率分层训练策略，以更有效地对齐文本与视频片段。作为（可能）首个开源的大规模预训练文本到视频生成模型，CogVideo在机器评估与人工评估中均显著优于所有现有公开模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang

摘要

大规模预训练的Transformer模型在文本生成（如GPT-3）和文本到图像生成（如DALL-E与CogView）领域取得了里程碑式进展。然而，其在视频生成领域的应用仍面临诸多挑战：潜在的巨大计算开销使得从零开始训练难以承受；同时，文本-视频数据集的稀缺性以及文本与视频之间语义关联的薄弱，限制了模型对复杂运动语义的理解能力。在本研究中，我们提出了一款拥有90亿参数的Transformer模型——CogVideo，该模型通过继承已预训练的文本到图像模型CogView2进行训练。此外，我们还提出了一种多帧率分层训练策略，以更有效地对齐文本与视频片段。作为（可能）首个开源的大规模预训练文本到视频生成模型，CogVideo在机器评估与人工评估中均显著优于所有现有公开模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供