Tiefes Video-Inpainting

Das Ziel des Video-Inpaintings ist es, räumlich-zeitliche Lücken in einem Video mit plausiblen Inhalten zu füllen. Trotz der enormen Fortschritte bei tiefen neuronalen Netzen für das Image-Inpainting ist es schwierig, diese Methoden auf den Videobereich zu erweitern, aufgrund der zusätzlichen Zeitdimension. In dieser Arbeit schlagen wir eine neuartige Architektur von tiefen neuronalen Netzen für schnelles Video-Inpainting vor. Aufbauend auf einem bildbasierten Encoder-Decoder-Modell ist unser Framework so konzipiert, dass es Informationen aus benachbarten Frames sammelt und verfeinert, um noch unbekannte Regionen zu synthetisieren. Gleichzeitig wird die Ausgabe durch einen rekurrenten Feedback- und ein zeitliches Speichermodul zeitlich konsistent gehalten. Im Vergleich zum aktuellen Stand der Technik im Bereich des Image-Inpaintings erzeugt unsere Methode Videos, die viel semantisch korrekter und zeitlich glatter sind. Im Gegensatz zu früheren Video-Vervollständigungsverfahren, die auf zeitaufwändige Optimierung basieren, läuft unsere Methode in Echtzeit und erzeugt gleichwertige Videoergebnisse. Schließlich haben wir unser Framework auf die Aufgabe des Video-Retargetings angewendet und visuell ansprechende Ergebnisse erhalten.