11 天前

FFNeRV:面向视频的流引导帧级神经表示

Joo Chan Lee, Daniel Rho, Jong Hwan Ko, Eunbyung Park
FFNeRV:面向视频的流引导帧级神经表示
摘要

神经场(Neural fields),亦称基于坐标的隐式神经表示,已展现出在表示、生成和操控各类信号方面的卓越能力。然而,在视频表示任务中,将像素坐标映射为RGB颜色的方法在压缩性能方面表现相对较低,且存在收敛速度慢、推理效率不高的问题。近年来,帧级视频表示方法应运而生——该方法将时间坐标映射至完整帧内容,成为一种替代方案,显著提升了压缩率与编码速度。尽管前景可期,该方法尚未达到当前先进视频压缩算法的性能水平。在本研究中,我们提出一种名为FFNeRV的新方法,通过在帧级表示中引入光流信息,借鉴标准视频编解码器中对帧间时序冗余的利用机制,以更高效地建模视频序列中的时间相关性。此外,我们设计了一种全卷积架构,依托一维时间网格,有效提升了空间特征的连续性。实验结果表明,FFNeRV在采用帧级表示或神经场的各类方法中,于视频压缩与帧插值任务上均取得了最优性能。为进一步减小模型规模,我们进一步提出一种更为紧凑的卷积架构,结合分组卷积(group convolution)与逐点卷积(pointwise convolution)技术。结合量化感知训练(quantization-aware training)与熵编码等模型压缩技术,FFNeRV在性能上超越了广泛应用的标准视频编解码器(如H.264与HEVC),并达到与当前最先进视频压缩算法相当的水平。

FFNeRV:面向视频的流引导帧级神经表示 | 最新论文 | HyperAI超神经