HyperAIHyperAI

Command Palette

Search for a command to run...

Ausnutzung von Optical Flow-Leitlinien für Transformer-basierte Video-Inpainting

Kaidong Zhang Jialun Peng Jingjing Fu Dong Liu

Zusammenfassung

Transformers werden aufgrund des Multi-Head-Self-Attention (MHSA)-Mechanismus weit verbreitet für die Videoverarbeitung eingesetzt. Allerdings begegnet das MHSA-Mechanismus einer inhärenten Schwierigkeit bei der Video-Inpainting-Aufgabe, da die Merkmale der beschädigten Regionen beeinträchtigt sind und zu ungenauen Selbst-Attention-Abbildungen führen. Dieses Problem, das als Query-Degradation bezeichnet wird, kann durch eine vorherige Vervollständigung der optischen Flüsse und deren Nutzung zur Steuerung der Selbst-Attention gemildert werden, was in unserer vorherigen Arbeit – dem Flow-Guided Transformer (FGT) – bereits verifiziert wurde. Wir erweitern nun die Flussführung weiter und stellen FGT++ vor, um eine effektivere und effizientere Video-Inpainting-Performance zu erreichen. Zunächst entwerfen wir ein leichtgewichtiges Fluss-Vervollständigungsnetzwerk mittels lokaler Aggregation und Kantenverlust. Zweitens lösen wir das Problem der Query-Degradation durch die Einführung eines Flow-Guided Feature Integration-Moduls, das die Merkmale mithilfe der Bewegungsunterschiede verbessert, sowie eines flow-gesteuerten Merkmalspropagationsmoduls, das die Merkmale gemäß den optischen Flüssen transformiert. Drittens entkoppeln wir den Transformer entlang der zeitlichen und räumlichen Dimensionen: Hierbei werden die Tokens mittels eines zeitlich deformierbaren MHSA-Mechanismus anhand der Flüsse ausgewählt, während globale Tokens mit innerhalb des Fensters lokalisierten Tokens über ein Dual-Perspective-MHSA-Mechanismus kombiniert werden. Experimentelle Evaluierungen zeigen, dass FGT++ sowohl qualitativ als auch quantitativ die bestehenden Video-Inpainting-Netzwerke übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp