2 个月前
少样本视频到视频合成
Ting-Chun Wang; Ming-Yu Liu; Andrew Tao; Guilin Liu; Jan Kautz; Bryan Catanzaro

摘要
视频到视频合成(vid2vid)旨在将输入的语义视频(如人体姿态或分割掩码的视频)转换为输出的真实感视频。尽管vid2vid的最先进技术已经取得了显著进展,但现有的方法仍存在两个主要局限性。首先,它们对数据的需求量极大,需要大量目标人物或场景的图像进行训练。其次,学习到的模型泛化能力有限,例如,一个从姿态到人体的vid2vid模型只能合成训练集中单个人物的姿态,而无法推广到未在训练集中出现的其他人。为了解决这些局限性,我们提出了一种少样本vid2vid框架,该框架通过利用测试时目标对象的少量示例图像来学习合成之前未见过的人物或场景的视频。我们的模型通过一种新颖的网络权重生成模块实现了这种少样本泛化能力,该模块利用了注意力机制。我们在多个大规模视频数据集上进行了广泛的实验验证,并与强大的基线方法进行了比较,这些数据集包括人类舞蹈视频、头部特写视频和街景视频。实验结果证实了所提出的框架在解决现有vid2vid方法的两个局限性方面的有效性。