
Transformer 由于其多头自注意力(Multi-Head Self-Attention, MHSA)机制,在视频处理任务中得到了广泛应用。然而,MHSA 机制在视频修复(video inpainting)任务中面临一个固有难题:与损坏区域相关的特征会因退化而产生不准确的自注意力计算,这一问题被称为“查询退化”(query degradation)。在我们先前的工作中,已验证通过先完成光流估计,再利用光流引导自注意力机制,可有效缓解该问题,由此提出了光流引导 Transformer(Flow-Guided Transformer, FGT)。在此基础上,本文进一步挖掘光流引导的潜力,提出 FGT++,以实现更高效、更精准的视频修复。具体而言,本文的贡献包括三个方面:首先,设计了一种轻量级的光流补全网络,通过引入局部聚合机制与边缘损失(edge loss),提升光流估计的精度与效率;其次,为应对查询退化问题,提出一种光流引导特征融合模块(flow-guided feature integration module),利用运动差异信息增强特征表示;同时,设计了一种光流引导的特征传播模块(flow-guided feature propagation module),根据光流对特征进行空间变形(warping),从而实现更合理的特征迁移;第三,将 Transformer 在时序与空间维度上进行解耦,其中利用光流实现时序可变形的多头自注意力机制(temporally deformable MHSA),以动态选择关键时间帧的 token;同时,通过双视角多头自注意力机制(dual perspective MHSA),将全局 token 与窗口内局部 token 进行融合,增强模型对时空上下文的理解能力。实验结果表明,FGT++ 在定性和定量评估上均显著优于现有的视频修复方法,展现出更强的修复效果与更高的计算效率。