HyperAIHyperAI
vor 2 Monaten

Lernen von gemeinsamen räumlich-zeitlichen Transformationen für das Video-Inpainting

Yanhong Zeng; Jianlong Fu; Hongyang Chao
Lernen von gemeinsamen räumlich-zeitlichen Transformationen für das Video-Inpainting
Abstract

Die hochwertige Video-Inpainting, die fehlende Bereiche in Videobildern vervollständigt, ist eine vielversprechende, jedoch herausfordernde Aufgabe. Die neuesten Ansätze verwenden Aufmerksamkeitsmodelle, um einen Bildausschnitt durch die Suche nach fehlenden Inhalten in Referenzbildern zu vervollständigen und schrittweise ganze Videos bild für bild zu ergänzen. Allerdings können diese Ansätze aufgrund inkonsistenter Aufmerksamkeitsresultate entlang der räumlichen und zeitlichen Dimensionen zu Unschärfe und zeitlichen Artefakten in Videos führen. In dieser Arbeit schlagen wir vor, ein gemeinsames räumlich-zeitliches Transformer-Netzwerk (STTN) für das Video-Inpainting zu lernen. Insbesondere füllen wir gleichzeitig fehlende Bereiche in allen Eingangsbildern durch Selbst-Aufmerksamkeit und schlagen vor, das STTN durch einen räumlich-zeitlichen adversären Verlust zu optimieren. Um die Überlegenheit des vorgeschlagenen Modells zu demonstrieren, führen wir sowohl quantitative als auch qualitative Bewertungen durch, indem wir standardisierte stationäre Masken sowie realistischere bewegte Objektmasken verwenden. Demonstrationsvideos sind unter https://github.com/researchmm/STTN verfügbar.

Lernen von gemeinsamen räumlich-zeitlichen Transformationen für das Video-Inpainting | Neueste Forschungsarbeiten | HyperAI