Lernen von Kreuz-Videoneuralen Darstellungen für hochwertige Bildinterpolation

Diese Arbeit behandelt das Problem der zeitlichen Video-Interpolation, bei dem das Ziel darin besteht, einen neuen Videoframe auf Basis seiner beiden benachbarten Frames zu synthetisieren. Wir stellen Cross-Video Neural Representation (CURE) als die erste Video-Interpolationsmethode vor, die auf Neural Fields (NF) basiert. Unter Neural Fields versteht man eine neuere Klasse von Methoden zur neuronalen Darstellung komplexer 3D-Szenen, die in der Computer Vision weit verbreitet und erfolgreich eingesetzt wurde. CURE stellt das Video als eine stetige Funktion dar, die durch ein koordinatenbasiertes neuronales Netzwerk parametrisiert ist, dessen Eingaben die räumlich-zeitlichen Koordinaten und deren Ausgaben die entsprechenden RGB-Werte sind. CURE führt eine neue Architektur ein, die das neuronale Netzwerk auf die Eingabeframes bedingt, um eine räumlich-zeitliche Konsistenz im synthetisierten Video zu gewährleisten. Dies verbessert nicht nur die Qualität der finalen Interpolation, sondern ermöglicht zudem, dass CURE ein Vorwissen über mehrere Videos lernt. Experimentelle Evaluierungen zeigen, dass CURE auf mehreren Benchmark-Datensätzen für Video-Interpolation die derzeit beste Leistung erzielt.