HyperAIHyperAI
vor 2 Monaten

Video-Bilderrahmen-Interpolation durch adaptive separable Faltung

Simon Niklaus; Long Mai; Feng Liu
Video-Bilderrahmen-Interpolation durch adaptive separable Faltung
Abstract

Standardmethoden zur Video-Bilderrateinschätzung schätzen zunächst den optischen Fluss zwischen den Eingabebildern und synthetisieren dann ein Zwischenbild unter Berücksichtigung der Bewegung. Neuere Ansätze vereinen diese beiden Schritte in einem einzigen Faltungsprozess, indem sie die Eingabebilder mit räumlich adaptiven Kernen falten, die gleichzeitig Bewegung und Neuprobeziehungen berücksichtigen. Diese Methoden erfordern große Kerne, um große Bewegungen zu verarbeiten, was aufgrund des hohen Speicherbedarfs die Anzahl der Pixel begrenzt, deren Kerne gleichzeitig geschätzt werden können. Um dieses Problem zu lösen, formuliert dieser Artikel die Bilderrateinschätzung als lokale trennbare Faltung über die Eingabebilder unter Verwendung von Paaren eindimensionaler Kerne (1D-Kerne). Im Vergleich zu regulären zweidimensionalen Kernen (2D-Kernen) benötigen die 1D-Kerne erheblich weniger Parameter zur Schätzung. Unsere Methode entwickelt ein tiefes, vollständig faltendes neuronales Netzwerk, das zwei Eingabebilder entgegennimmt und für alle Pixel gleichzeitig Paare von 1D-Kernen schätzt. Da unsere Methode in der Lage ist, Kerne zu schätzen und das gesamte Videobild auf einmal zu synthetisieren, ermöglicht sie es, wahrnehmungsbezogene Verlustfunktionen zu integrieren, um das neuronale Netzwerk zum Erzeugen visuell ansprechender Bilder auszubilden. Dieses tiefe neuronale Netzwerk wird end-to-end mit weit verbreiteten Videodaten trainiert, ohne menschliche Annotationen zu verwenden. Sowohl qualitative als auch quantitative Experimente zeigen, dass unsere Methode eine praktische Lösung für hochwertige Video-Bilderrateinschätzung bietet.