CoordFlow: Koordinatenfluss für pixelweise neuronale Video-Repräsentation

Im Bereich der Videokompression bleibt die Verbesserung der Bildqualität bei niedrigen Bitraten ein langfristiges Ziel. Neuere Entwicklungen haben das Potenzial von Implicit Neural Representations (INR) als vielversprechende Alternative zu herkömmlichen, transformationsbasierten Methoden aufgezeigt. Video-INRs lassen sich grob nach der Struktur der Netzwerk-Ausgabe in frameweise und pixelweise Ansätze einteilen. Während pixelbasierte Methoden besser für die Skalierung und Parallelisierung geeignet sind, zeigten frameweise Ansätze bisher eine überlegene Leistung. Wir stellen CoordFlow vor, eine neuartige pixelweise INR für die Videokompression. Sie erreicht Spitzenwerte unter anderen pixelweisen INRs und leistet sich mit führenden frameweisen Techniken auf Augenhöhe. Die Methode basiert auf der Aufteilung der visuellen Information in optisch konsistente Schichten, wobei jede Schicht durch ein spezifisches Netzwerk repräsentiert wird, das die Bewegung der jeweiligen Schicht kompensiert. Bei der Integration ergibt sich als Nebenprodukt eine unsupervisierte Segmentierung der Videosequenz. Die implizite Nutzung von Objektbewegungstrajektorien ermöglicht die Kompensation visueller zeitlicher Redundanzen. Zudem verfügt das vorgeschlagene Verfahren über inhärente Fähigkeiten zur Video-Skalierung, Stabilisierung, Inpainting und Rauschunterdrückung.