6 个月前

统一多模态

Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang Mohammad Taghi Saffar Santiago Castro Julius Kunze Dumitru Erhan

摘要

我们提出 Phenaki，一种能够根据文本提示序列生成逼真视频的模型。从文本生成视频具有显著挑战性，主要源于计算成本高昂、高质量文本-视频数据数量有限，以及视频长度的可变性。为应对这些挑战，我们引入了一种新型视频表示学习模型，该模型可将视频压缩为少量离散的标记（token）表示。该分词器采用时间上的因果注意力机制，使其能够处理长度可变的视频。为了从文本生成视频标记，我们使用一种基于预计算文本标记的双向掩码 Transformer 模型。生成的视频标记随后被解码为实际视频。为缓解数据不足的问题，我们展示了在大规模图像-文本对语料库与少量视频-文本样本上进行联合训练，能够实现超越现有视频数据集范围的泛化能力。与以往的视频生成方法相比，Phenaki 可在开放领域中，基于一系列时变文本提示（即时间可变的文本或故事）生成任意长度的视频。据我们所知，这是首次系统性研究从时变提示生成视频的工作。此外，相较于逐帧生成的基线方法，所提出的视频编码器-解码器在每段视频中计算的标记数量更少，同时显著提升了时空一致性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang Mohammad Taghi Saffar Santiago Castro Julius Kunze Dumitru Erhan

摘要

我们提出 Phenaki，一种能够根据文本提示序列生成逼真视频的模型。从文本生成视频具有显著挑战性，主要源于计算成本高昂、高质量文本-视频数据数量有限，以及视频长度的可变性。为应对这些挑战，我们引入了一种新型视频表示学习模型，该模型可将视频压缩为少量离散的标记（token）表示。该分词器采用时间上的因果注意力机制，使其能够处理长度可变的视频。为了从文本生成视频标记，我们使用一种基于预计算文本标记的双向掩码 Transformer 模型。生成的视频标记随后被解码为实际视频。为缓解数据不足的问题，我们展示了在大规模图像-文本对语料库与少量视频-文本样本上进行联合训练，能够实现超越现有视频数据集范围的泛化能力。与以往的视频生成方法相比，Phenaki 可在开放领域中，基于一系列时变文本提示（即时间可变的文本或故事）生成任意长度的视频。据我们所知，这是首次系统性研究从时变提示生成视频的工作。此外，相较于逐帧生成的基线方法，所提出的视频编码器-解码器在每段视频中计算的标记数量更少，同时显著提升了时空一致性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供