6 个月前

摘要

在视频帧插值（Video Frame Interpolation, VFI）任务中，现有的基于深度学习的方法强烈依赖于真实标签（Ground Truth, GT）中间帧，这在一定程度上忽略了从相邻帧推断运动时可能存在的非唯一性问题。因此，这些方法往往生成平均化的结果，导致插值帧清晰度不足。为缓解这一问题，本文提出放宽对中间帧重建为尽可能接近真实标签的要求。基于一个假设——插值内容应与给定帧中的对应区域保持相似的结构特征——我们设计了一种纹理一致性损失（Texture Consistency Loss, TCL）。该损失鼓励预测结果满足结构一致性约束，即使其与预定义的GT存在差异。无需额外复杂模块，所提出的即插即用型TCL可有效提升现有VFI框架的性能。另一方面，以往方法通常采用代价体（cost volume）或相关图（correlation map）来实现更精确的图像/特征变形。然而，这类方法存在O(N²)的计算复杂度（其中N表示像素数量），在高分辨率场景下难以应用。为此，本文提出一种简单、高效（O(N)）且强大的跨尺度金字塔对齐（Cross-scale Pyramid Alignment, CSPA）模块，充分挖掘多尺度信息。大量实验结果验证了所提方法在效率与有效性方面的显著优势。

源 PDF