E-NeRV: Beschleunigung der neuronalen Video-Repräsentation durch entkoppelten räumlich-zeitlichen Kontext

Kürzlich hat die bildweise implizite neuronale Darstellung von Videos, NeRV, aufgrund ihrer vielversprechenden Ergebnisse und ihrer hohen Geschwindigkeit im Vergleich zu herkömmlichen pixelweisen impliziten Darstellungen an Beliebtheit gewonnen. Allerdings können die redundanten Parameter innerhalb der Netzwerkstruktur bei der Skalierung zur Erzielung einer gewünschten Leistung zu einer erheblichen Modellgröße führen. Der zentrale Grund hierfür liegt in der gekoppelten Formulierung von NeRV, die die räumlichen und zeitlichen Informationen von Videoframes direkt aus dem Frame-Index als Eingabe berechnet. In diesem Artikel stellen wir E-NeRV vor, das NeRV erheblich beschleunigt, indem es die bildweise implizite neuronale Darstellung in getrennte räumliche und zeitliche Kontexte zerlegt. Unter der Leitung dieser neuen Formulierung reduziert unser Modell die redundanten Modellparameter erheblich, während die Darstellungsfähigkeit erhalten bleibt. Experimentell zeigen wir, dass unsere Methode die Leistung erheblich verbessert, und zwar mit weniger Parametern, was zu einer mehr als 8-fach schnelleren Konvergenzgeschwindigkeit führt. Der Quellcode ist unter https://github.com/kyleleey/E-NeRV verfügbar.