7 天前

NÜWA:面向神经视觉世界生成的视觉合成预训练

Chenfei Wu, Jian Liang, Lei Ji, Fan Yang, Yuejian Fang, Daxin Jiang, Nan Duan
NÜWA:面向神经视觉世界生成的视觉合成预训练
摘要

本文提出了一种统一的多模态预训练模型——NÜWA,该模型能够生成新视觉数据或对现有视觉数据(如图像和视频)进行操作,以应对多种视觉合成任务。为同时涵盖语言、图像与视频在不同场景下的应用,研究设计了一种三维Transformer编码器-解码器框架,该框架不仅能将视频作为三维数据进行处理,还可分别将文本和图像作为一维与二维数据进行适配。此外,本文还提出了一种三维邻近注意力机制(3D Nearby Attention, 3DNA),以更好地体现视觉数据的内在特性,并有效降低计算复杂度。我们在8个下游任务上对NÜWA进行了评估,实验结果表明,相较于多个强基准模型,NÜWA在文本到图像生成、文本到视频生成、视频预测等任务上均取得了当前最优(state-of-the-art)性能。此外,该模型在文本引导的图像与视频编辑任务中,还展现出令人惊讶的零样本(zero-shot)能力。项目代码仓库地址:https://github.com/microsoft/NUWA。

NÜWA:面向神经视觉世界生成的视觉合成预训练 | 最新论文 | HyperAI超神经