HyperAIHyperAI
vor 2 Monaten

Echtzeit-Videosuperresolution mit räumlich-zeitlichen Netzen und Bewegungskompensation

Jose Caballero; Christian Ledig; Andrew Aitken; Alejandro Acosta; Johannes Totz; Zehan Wang; Wenzhe Shi
Echtzeit-Videosuperresolution mit räumlich-zeitlichen Netzen und Bewegungskompensation
Abstract

Faltungsschichtneuronale Netze (Convolutional Neural Networks) ermöglichen eine genaue Echtzeit-Bildsuperauflösung. Bisherige Versuche, von zeitlichen Korrelationen bei der Videosuperauflösung zu profitieren, waren jedoch auf naiv oder ineffiziente Architekturen beschränkt. In dieser Arbeit stellen wir räumlich-zeitliche Sub-Pixel-Faltungsschichtnetze vor, die zeitliche Redundanzen effektiv nutzen und die Rekonstruktionsgenauigkeit verbessern, während sie gleichzeitig die Echtzeitgeschwindigkeit beibehalten. Insbesondere diskutieren wir die Anwendung von früher Fusion (early fusion), langsamer Fusion (slow fusion) und 3D-Faltungen für die gemeinsame Verarbeitung mehrerer aufeinanderfolgender Videobilder. Zudem schlagen wir einen neuen Algorithmus zur gemeinsamen Bewegungskompensation und Videosuperauflösung vor, der um Größenordnungen effizienter als vergleichbare Methoden ist und auf einem schnellen multiresolutionalen räumlichen Transformer-Modul basiert, das end-to-end trainierbar ist. Diese Beiträge bieten sowohl höhere Genauigkeit als auch zeitlich konsistentere Videos, was wir sowohl qualitativ als auch quantitativ bestätigen. Im Vergleich zu Modellen mit einzelnen Bildern können räumlich-zeitliche Netze entweder den Rechenaufwand um 30 % reduzieren, während sie die gleiche Qualität beibehalten, oder für einen ähnlichen Rechenaufwand eine Verbesserung der Genauigkeit um 0,2 dB erzielen. Die Ergebnisse an öffentlich verfügbaren Datensätzen zeigen, dass die vorgeschlagenen Algorithmen sowohl in Genauigkeit als auch in Effizienz den aktuellen Stand der Technik übertreffen.

Echtzeit-Videosuperresolution mit räumlich-zeitlichen Netzen und Bewegungskompensation | Neueste Forschungsarbeiten | HyperAI