6 个月前

摘要

本文提出了一种统一的多模态预训练模型——NÜWA，该模型能够生成新视觉数据或对现有视觉数据（如图像和视频）进行操作，以应对多种视觉合成任务。为同时涵盖语言、图像与视频在不同场景下的应用，研究设计了一种三维Transformer编码器-解码器框架，该框架不仅能将视频作为三维数据进行处理，还可分别将文本和图像作为一维与二维数据进行适配。此外，本文还提出了一种三维邻近注意力机制（3D Nearby Attention, 3DNA），以更好地体现视觉数据的内在特性，并有效降低计算复杂度。我们在8个下游任务上对NÜWA进行了评估，实验结果表明，相较于多个强基准模型，NÜWA在文本到图像生成、文本到视频生成、视频预测等任务上均取得了当前最优（state-of-the-art）性能。此外，该模型在文本引导的图像与视频编辑任务中，还展现出令人惊讶的零样本（zero-shot）能力。项目代码仓库地址：https://github.com/microsoft/NUWA。

源 PDF