FFNeRV: Flow-gesteuerte frameweise neuronale Darstellungen für Videos

Neuronale Felder, auch als koordinatenbasierte oder implizite neuronale Darstellungen bekannt, haben eine bemerkenswerte Fähigkeit zur Darstellung, Generierung und Manipulation verschiedener Signalformen gezeigt. Für Videodarstellungen erweist sich die Abbildung von pixelweisen Koordinaten auf RGB-Farbwerte jedoch als relativ ineffizient hinsichtlich der Kompressionsleistung sowie in Bezug auf langsames Konvergenz- und Inferenzverhalten. Als alternatives Verfahren zur Videodarstellung ist kürzlich die framebasierte Darstellung aufgekommen, bei der eine zeitliche Koordinate auf den gesamten Frame abgebildet wird. Diese Methode verbessert die Kompressionsraten und die Kodiergeschwindigkeit. Trotz ihrer vielversprechenden Eigenschaften erreicht sie jedoch weiterhin nicht die Leistungsfähigkeit modernster Video-Kompressionsalgorithmen. In dieser Arbeit präsentieren wir FFNeRV, eine neuartige Methode zur Integration von Bewegungsinformationen in framebasierte Darstellungen, um die zeitliche Redundanz zwischen den Bildern in Videos auszunutzen – inspiriert durch herkömmliche Video-Codecs. Zudem führen wir eine vollständig konvolutionale Architektur ein, die durch eindimensionale zeitliche Gitter ermöglicht wird und die Kontinuität der räumlichen Merkmale verbessert. Experimentelle Ergebnisse zeigen, dass FFNeRV die beste Leistung unter den Methoden mit framebasierten Darstellungen oder neuronalen Feldern für die Video-Kompression und Frame-Interpolation erzielt. Um die Modellgröße weiter zu reduzieren, entwickeln wir eine kompaktere konvolutionale Architektur mittels Gruppen- und Punktkonvolutionen. Mit Modellkompressionsmethoden, einschließlich quantisierungsbewusstem Training und Entropiekodierung, übertrifft FFNeRV weit verbreitete Standard-Video-Codecs (H.264 und HEVC) und erreicht eine Leistung, die mit den derzeit besten Video-Kompressionsalgorithmen vergleichbar ist.