
摘要
大多数用于视频帧插值的深度学习方法主要由三个核心组件构成:特征提取、运动估计和图像合成。现有方法之间的主要区别在于这些模块的设计方式。然而,在对高分辨率图像(例如4K分辨率)进行插值时,如何在合理内存消耗的前提下实现高精度,其设计选择仍十分有限。特征提取层有助于压缩输入数据并提取后续阶段(如运动估计)所需的关键信息,但这类层通常在参数量、计算时间和内存占用方面开销较大。本文提出,通过结合降维思想与轻量级优化策略,可在保持适用于帧插值任务的有效信息的同时,显著压缩输入表示。此外,我们的方法无需预训练的光流网络或合成网络,进一步减少了可训练参数数量和内存需求。在三个4K基准测试上的实验结果表明,本方法在不依赖预训练光流网络的现有方法中达到了最优的图像质量,同时在整体网络复杂度和内存消耗方面均处于最低水平,展现出卓越的效率与性能平衡。