16 天前

缺陷感知的掩码Transformer用于视频修复

Yongsheng Yu, Heng Fan, Libo Zhang
缺陷感知的掩码Transformer用于视频修复
摘要

近年来,视频修复(video inpainting)方法通过引入显式引导信息(如光流)来实现跨帧像素的传播,取得了显著进展。然而,在某些情况下,被遮挡区域在视频中缺乏跨帧的重复结构,导致现有方法性能受限。在此类情形下,模型不再依赖从其他帧借用像素,而是转向解决逆问题(inverse problem)的建模。本文提出一种支持双模态(图像与视频)的修复框架——缺陷感知掩码Transformer(Deficiency-aware Masked Transformer, DMT),具备三大优势:首先,我们预先训练了一个图像修复模型 DMT_img,作为先验知识用于蒸馏视频修复模型 DMT_vid,从而有效提升对缺失结构的合理推断能力;其次,模型中的自注意力模块通过选择性地融合时空特征令牌(spatiotemporal tokens),在加速推理的同时有效抑制噪声信号;第三,我们引入了一个简单而高效的感受野上下文增强模块(Receptive Field Contextualizer),进一步提升了修复性能。在 YouTube-VOS 和 DAVIS 数据集上的大量实验表明,DMT_vid 显著优于现有方法。代码与视频演示可访问 GitHub:github.com/yeates/DMT。

缺陷感知的掩码Transformer用于视频修复 | 最新论文 | HyperAI超神经