Kopier-und-Einfüge-Netzwerke für tiefes Video-Inpainting

Wir präsentieren einen neuen tiefen Lernalgorithmus für die Video-Inpainting. Das Video-Inpainting ist ein Prozess, bei dem beschädigte oder fehlende Bereiche in Videos vervollständigt werden. Im Vergleich zum Image-Inpainting stellt das Video-Inpainting zusätzliche Herausforderungen dar, da es zusätzliche zeitliche Informationen sowie die Notwendigkeit der Erhaltung der zeitlichen Kohärenz gibt. Wir schlagen ein neues DNN-basiertes Framework vor, das als Copy-and-Paste Networks (Kopier-und-Einfüge-Netze) bezeichnet wird und von den zusätzlichen Informationen in anderen Videobildern profitiert. Das Netzwerk wird trainiert, um entsprechende Inhalte in Referenzbildern zu kopieren und diese in das Zielbild einzufügen, um die Löcher zu füllen. Unser Netzwerk enthält außerdem ein Ausrichtungsnetzwerk, das affine Matrizen zwischen den Bildern berechnet, um eine Ausrichtung zu ermöglichen und das Netzwerk zu robusteren Ergebnissen befähigt, indem es Informationen aus weiter entfernten Bildern nutzt. Unsere Methode erzeugt visuell ansprechende und zeitlich kohärente Ergebnisse und läuft schneller als die optimierungsbasierte Methode des aktuellen Standes der Technik. Darüber hinaus erweitern wir unser Framework zur Verbesserung von über- oder unterbelichteten Bildern in Videos. Mit dieser Verstärkungstechnik konnten wir die Genauigkeit der Spurbilderkennung in Straßenvideos erheblich verbessern.