NeRV: Neuronale Darstellungen für Videos

Wir stellen eine neuartige neuronale Darstellung für Videos (NeRV) vor, die Videos in neuronalen Netzwerken kodiert. Im Gegensatz zu herkömmlichen Darstellungen, die Videos als Folge von Bildern behandeln, repräsentieren wir Videos als neuronale Netzwerke, die den Frame-Index als Eingabe verwenden. Gegeben einen Frame-Index gibt NeRV das entsprechende RGB-Bild aus. Die Kodierung eines Videos in NeRV besteht einfach darin, ein neuronales Netzwerk an die Videoframes anzupassen, während die Dekodierung lediglich eine einfache Feedforward-Operation ist. Als implizite Darstellung auf Bild-Ebene generiert NeRV das gesamte Bild und zeigt im Vergleich zu pixelbasierten impliziten Darstellungen erhebliche Effizienzsteigerungen: Die Kodiergeschwindigkeit wird um das 25- bis 70-fache, die Dekodiergeschwindigkeit um das 38- bis 132-fache beschleunigt, wobei gleichzeitig eine bessere Videoqualität erreicht wird. Mit dieser Darstellung können Videos als neuronale Netzwerke behandelt werden, was mehrere video-basierte Aufgaben vereinfacht. Beispielsweise sind herkömmliche Videokomprimierungsverfahren durch eine lange und komplexe Pipeline eingeschränkt, die speziell für diese Aufgabe entworfen wurde. Im Gegensatz dazu können wir mit NeRV beliebige neuronale Netzwerk-basierte Komprimierungsverfahren als Proxy für die Videokompression nutzen und dabei Leistungen erzielen, die vergleichbar mit traditionellen, framebasierten Ansätzen (wie H.264, HEVC usw.) sind. Darüber hinaus demonstrieren wir die Generalisierbarkeit von NeRV für die Videodenoisierung. Der Quellcode und vortrainierte Modelle sind unter https://github.com/haochen-rye/NeRV.git verfügbar.