HyperAIHyperAI
vor 16 Tagen

Ausnutzung von Optical Flow-Leitlinien für Transformer-basierte Video-Inpainting

Kaidong Zhang, Jialun Peng, Jingjing Fu, Dong Liu
Ausnutzung von Optical Flow-Leitlinien für Transformer-basierte Video-Inpainting
Abstract

Transformers werden aufgrund des Multi-Head-Self-Attention (MHSA)-Mechanismus weit verbreitet für die Videoverarbeitung eingesetzt. Allerdings begegnet das MHSA-Mechanismus einer inhärenten Schwierigkeit bei der Video-Inpainting-Aufgabe, da die Merkmale der beschädigten Regionen beeinträchtigt sind und zu ungenauen Selbst-Attention-Abbildungen führen. Dieses Problem, das als Query-Degradation bezeichnet wird, kann durch eine vorherige Vervollständigung der optischen Flüsse und deren Nutzung zur Steuerung der Selbst-Attention gemildert werden, was in unserer vorherigen Arbeit – dem Flow-Guided Transformer (FGT) – bereits verifiziert wurde. Wir erweitern nun die Flussführung weiter und stellen FGT++ vor, um eine effektivere und effizientere Video-Inpainting-Performance zu erreichen. Zunächst entwerfen wir ein leichtgewichtiges Fluss-Vervollständigungsnetzwerk mittels lokaler Aggregation und Kantenverlust. Zweitens lösen wir das Problem der Query-Degradation durch die Einführung eines Flow-Guided Feature Integration-Moduls, das die Merkmale mithilfe der Bewegungsunterschiede verbessert, sowie eines flow-gesteuerten Merkmalspropagationsmoduls, das die Merkmale gemäß den optischen Flüssen transformiert. Drittens entkoppeln wir den Transformer entlang der zeitlichen und räumlichen Dimensionen: Hierbei werden die Tokens mittels eines zeitlich deformierbaren MHSA-Mechanismus anhand der Flüsse ausgewählt, während globale Tokens mit innerhalb des Fensters lokalisierten Tokens über ein Dual-Perspective-MHSA-Mechanismus kombiniert werden. Experimentelle Evaluierungen zeigen, dass FGT++ sowohl qualitativ als auch quantitativ die bestehenden Video-Inpainting-Netzwerke übertrifft.

Ausnutzung von Optical Flow-Leitlinien für Transformer-basierte Video-Inpainting | Neueste Forschungsarbeiten | HyperAI