11 天前

基于光流引导的Transformer视频修复

Kaidong Zhang, Jialun Peng, Jingjing Fu, Dong Liu

摘要

Transformer 由于其多头自注意力（Multi-Head Self-Attention, MHSA）机制，在视频处理任务中得到了广泛应用。然而，MHSA 机制在视频修复（video inpainting）任务中面临一个固有难题：与损坏区域相关的特征会因退化而产生不准确的自注意力计算，这一问题被称为“查询退化”（query degradation）。在我们先前的工作中，已验证通过先完成光流估计，再利用光流引导自注意力机制，可有效缓解该问题，由此提出了光流引导 Transformer（Flow-Guided Transformer, FGT）。在此基础上，本文进一步挖掘光流引导的潜力，提出 FGT++，以实现更高效、更精准的视频修复。具体而言，本文的贡献包括三个方面：首先，设计了一种轻量级的光流补全网络，通过引入局部聚合机制与边缘损失（edge loss），提升光流估计的精度与效率；其次，为应对查询退化问题，提出一种光流引导特征融合模块（flow-guided feature integration module），利用运动差异信息增强特征表示；同时，设计了一种光流引导的特征传播模块（flow-guided feature propagation module），根据光流对特征进行空间变形（warping），从而实现更合理的特征迁移；第三，将 Transformer 在时序与空间维度上进行解耦，其中利用光流实现时序可变形的多头自注意力机制（temporally deformable MHSA），以动态选择关键时间帧的 token；同时，通过双视角多头自注意力机制（dual perspective MHSA），将全局 token 与窗口内局部 token 进行融合，增强模型对时空上下文的理解能力。实验结果表明，FGT++ 在定性和定量评估上均显著优于现有的视频修复方法，展现出更强的修复效果与更高的计算效率。