Defizitbewusster maskierter Transformer für die Video-Inpainting

Neuere Methoden zur Videobefüllung (video inpainting) haben erhebliche Fortschritte erzielt, indem sie explizite Anleitungen wie beispielsweise Optische Flussinformationen nutzen, um Pixel über verschiedene Frames hinweg zu propagieren. Dennoch gibt es Fälle, in denen eine Rückführung von maskierten Videoinhalten über mehrere Frames hinweg nicht möglich ist, was zu einer Mängelhaftigkeit führt. In solchen Situationen verlagert sich der Fokus des Modells von der Nutzung von Pixeln aus anderen Frames hin zur Lösung des inversen Problems. In diesem Paper stellen wir einen dual-modalen kompatiblen Befüllungsansatz vor, den wir Deficiency-aware Masked Transformer (DMT) nennen, der drei zentrale Vorteile bietet. Erstens prätrainieren wir ein Bildbefüllungsmodell DMT_img, das als Vorwissen dient, um das Video-Befüllungsmodell DMT_vid zu verfeinern, wodurch die Generierung von fehlenden Inhalten verbessert wird. Zweitens integriert das Selbst-Attention-Modul selektiv räumlich-zeitliche Tokens, was die Inferenzgeschwindigkeit erhöht und Rauschsignale reduziert. Drittens wird ein einfaches, jedoch effektives Receptive Field Contextualizer in DMT integriert, das die Leistung weiter steigert. Umfassende Experimente auf den Datensätzen YouTube-VOS und DAVIS zeigen, dass DMT_vid deutlich über frühere Ansätze hinausgeht. Der Quellcode und Video-Demonstrationen sind unter github.com/yeates/DMT verfügbar.