8 天前

INR-V:面向基于视频生成任务的连续表示空间

Bipasha Sen, Aditya Agarwal, Vinay P Namboodiri, C. V. Jawahar
INR-V:面向基于视频生成任务的连续表示空间
摘要

生成视频是一项复杂任务,通常通过逐帧生成一组时间上连贯的图像来实现。然而,这种范式将视频的表达能力局限于对单个视频帧的图像操作,需要依赖特定的网络结构以在底层图像空间中实现时间上的一致性轨迹。为此,我们提出INR-V——一种面向视频生成任务的连续视频表示网络。INR-V采用隐式神经表示(Implicit Neural Representations, INRs)来参数化视频,其核心是一个多层感知机(MLP),能够根据视频中每个像素的位置输入,预测对应的RGB值。该INR由一个元网络(meta-network)生成,该元网络本身是一个超网络(hypernetwork),在多个视频实例的神经表示上进行训练。训练完成后,只需对元网络进行采样,即可生成多样化的全新视频,从而支持多种下游视频生成任务。有趣的是,我们发现条件正则化(conditional regularization)和渐进式权重初始化(progressive weight initialization)在构建INR-V过程中起到了关键作用。INR-V所学习到的表示空间比传统图像空间更具表达能力,展现出诸多现有方法无法实现的特性。例如,INR-V能够平滑地在已知视频实例之间进行插值,生成中间身份、表情或姿态变化的过渡视频(如人脸视频中的中间身份变化);同时,它还能对视频中缺失的部分进行修复,恢复出时间上连贯的完整视频。在本研究中,我们在多种生成任务上评估了INR-V所学习表示空间的性能,包括视频插值、新视频生成、视频反演(video inversion)以及视频修复(video inpainting),并与现有主流基线方法进行了对比。实验结果表明,INR-V在多项任务上显著优于现有方法,充分展现了该连续表示空间在视频生成领域中的巨大潜力。

INR-V:面向基于视频生成任务的连续表示空间 | 最新论文 | HyperAI超神经