HyperAIHyperAI

Command Palette

Search for a command to run...

Defizitbewusster maskierter Transformer für die Video-Inpainting

Yongsheng Yu Heng Fan Libo Zhang

Zusammenfassung

Neuere Methoden zur Videobefüllung (video inpainting) haben erhebliche Fortschritte erzielt, indem sie explizite Anleitungen wie beispielsweise Optische Flussinformationen nutzen, um Pixel über verschiedene Frames hinweg zu propagieren. Dennoch gibt es Fälle, in denen eine Rückführung von maskierten Videoinhalten über mehrere Frames hinweg nicht möglich ist, was zu einer Mängelhaftigkeit führt. In solchen Situationen verlagert sich der Fokus des Modells von der Nutzung von Pixeln aus anderen Frames hin zur Lösung des inversen Problems. In diesem Paper stellen wir einen dual-modalen kompatiblen Befüllungsansatz vor, den wir Deficiency-aware Masked Transformer (DMT) nennen, der drei zentrale Vorteile bietet. Erstens prätrainieren wir ein Bildbefüllungsmodell DMT_img, das als Vorwissen dient, um das Video-Befüllungsmodell DMT_vid zu verfeinern, wodurch die Generierung von fehlenden Inhalten verbessert wird. Zweitens integriert das Selbst-Attention-Modul selektiv räumlich-zeitliche Tokens, was die Inferenzgeschwindigkeit erhöht und Rauschsignale reduziert. Drittens wird ein einfaches, jedoch effektives Receptive Field Contextualizer in DMT integriert, das die Leistung weiter steigert. Umfassende Experimente auf den Datensätzen YouTube-VOS und DAVIS zeigen, dass DMT_vid deutlich über frühere Ansätze hinausgeht. Der Quellcode und Video-Demonstrationen sind unter github.com/yeates/DMT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp