6 个月前

摘要

近年来，视频修复（video inpainting）方法通过引入显式引导信息（如光流）来实现跨帧像素的传播，取得了显著进展。然而，在某些情况下，被遮挡区域在视频中缺乏跨帧的重复结构，导致现有方法性能受限。在此类情形下，模型不再依赖从其他帧借用像素，而是转向解决逆问题（inverse problem）的建模。本文提出一种支持双模态（图像与视频）的修复框架——缺陷感知掩码Transformer（Deficiency-aware Masked Transformer, DMT），具备三大优势：首先，我们预先训练了一个图像修复模型 DMT_img，作为先验知识用于蒸馏视频修复模型 DMT_vid，从而有效提升对缺失结构的合理推断能力；其次，模型中的自注意力模块通过选择性地融合时空特征令牌（spatiotemporal tokens），在加速推理的同时有效抑制噪声信号；第三，我们引入了一个简单而高效的感受野上下文增强模块（Receptive Field Contextualizer），进一步提升了修复性能。在 YouTube-VOS 和 DAVIS 数据集上的大量实验表明，DMT_vid 显著优于现有方法。代码与视频演示可访问 GitHub：github.com/yeates/DMT。

源 PDF