9 天前

CCVS:上下文感知的可控视频生成

Guillaume Le Moing, Jean Ponce, Cordelia Schmid
CCVS:上下文感知的可控视频生成
摘要

本报告介绍了一种自监督学习方法,用于从旧视频片段中合成新的视频片段,并引入了若干创新性关键组件,以提升合成结果的空间分辨率与真实感:该方法通过引入上下文信息来保证时间连续性,并利用辅助信息实现精细控制。预测模型在两个层面实现双重自回归:其一,在自编码器的潜在空间中进行未来帧的预测;其二,在图像空间中更新上下文信息。该上下文信息还通过一个可学习的光流模块,用于强制实现时空一致性。在外观与时间两个域中对自编码器进行对抗训练,进一步提升了输出结果的真实感。在编码器与负责潜在空间中未来帧预测的Transformer之间插入一个量化器(其逆过程则置于Transformer与解码器之间),显著增强了模型的灵活性。该设计支持对多模态辅助信息(例如若干样本帧、音频轨道、图像空间中的运动轨迹等)的简便处理,同时通过允许多种预测结果,充分考虑了未来状态固有的不确定性。对所提出方法的实现进行的实验表明,其在多个任务和标准基准上均取得了优异的定性与定量结果。