HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von gemeinsamen räumlich-zeitlichen Transformationen für das Video-Inpainting

Yanhong Zeng; Jianlong Fu; Hongyang Chao

Zusammenfassung

Die hochwertige Video-Inpainting, die fehlende Bereiche in Videobildern vervollständigt, ist eine vielversprechende, jedoch herausfordernde Aufgabe. Die neuesten Ansätze verwenden Aufmerksamkeitsmodelle, um einen Bildausschnitt durch die Suche nach fehlenden Inhalten in Referenzbildern zu vervollständigen und schrittweise ganze Videos bild für bild zu ergänzen. Allerdings können diese Ansätze aufgrund inkonsistenter Aufmerksamkeitsresultate entlang der räumlichen und zeitlichen Dimensionen zu Unschärfe und zeitlichen Artefakten in Videos führen. In dieser Arbeit schlagen wir vor, ein gemeinsames räumlich-zeitliches Transformer-Netzwerk (STTN) für das Video-Inpainting zu lernen. Insbesondere füllen wir gleichzeitig fehlende Bereiche in allen Eingangsbildern durch Selbst-Aufmerksamkeit und schlagen vor, das STTN durch einen räumlich-zeitlichen adversären Verlust zu optimieren. Um die Überlegenheit des vorgeschlagenen Modells zu demonstrieren, führen wir sowohl quantitative als auch qualitative Bewertungen durch, indem wir standardisierte stationäre Masken sowie realistischere bewegte Objektmasken verwenden. Demonstrationsvideos sind unter https://github.com/researchmm/STTN verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von gemeinsamen räumlich-zeitlichen Transformationen für das Video-Inpainting | Paper | HyperAI