
摘要
我们研究如何利用隐式神经表示(Implicit Neural Representations, INRs)来建模视频。传统的INR方法通常采用多层感知机(MLPs)将输入坐标映射到输出像素。尽管近期一些工作尝试直接使用卷积神经网络(CNNs)重建整幅图像,但我们认为,上述基于像素级和图像级的策略均不适用于视频数据。为此,我们提出一种基于图像块(patch-wise)的解决方案——PS-NeRV,该方法将视频表示为图像块及其对应坐标之间的函数关系。该方法天然继承了图像级方法的优势,同时在保持快速解码速度的前提下,实现了优异的重建性能。整个框架融合了常规模块,如位置编码(positional embedding)、MLPs和CNNs,并引入自适应实例归一化(AdaIN)以增强中间特征表示。这些简单但关键的改进有助于网络更有效地拟合高频细节。大量实验表明,该方法在多个视频相关任务中均表现出色,包括视频压缩与视频修复(video inpainting)。