ReCoNet: Echtzeit-Kohärentes Video-Stilübertragungsnetzwerk

Bildstiltransfermodelle auf Basis von Faltungsneuronalen Netzen leiden in der Regel an hoher zeitlicher Inkonsistenz, wenn sie auf Videos angewendet werden. Einige Video-Stiltransfermodelle wurden vorgeschlagen, um die zeitliche Konsistenz zu verbessern, jedoch schaffen diese Modelle es nicht gleichzeitig, eine schnelle Verarbeitungsgeschwindigkeit, eine gute wahrgenommene Stilverteidigung und eine hohe zeitliche Konsistenz zu garantieren. In dieser Arbeit stellen wir ein neues Echtzeit-Video-Stiltransfermodell vor, das ReCoNet genannt wird und zeitlich kohärente Stiltransfer-Videos erzeugen kann, während es zugleich günstige wahrgenommene Stile beibehält. Eine neuartige Helligkeitsverformungsbedingung (luminance warping constraint) wird dem zeitlichen Verlust auf Ausgabebene hinzugefügt, um Helligkeitsänderungen zwischen aufeinanderfolgenden Bildern zu erfassen und die Stabilisierung unter Beleuchtungseffekten zu erhöhen. Wir schlagen zudem einen neuartigen zeitlichen Verlust auf Feature-Map-Ebene vor, um die zeitliche Konsistenz bei nachvollziehbaren Objekten weiter zu verbessern. Experimentelle Ergebnisse zeigen, dass unser Modell sowohl qualitativ als auch quantitativ außergewöhnliche Leistungsfähigkeit aufweist.