Echtzeit-Super-Resolution-System für 4K-Video basierend auf Deep Learning

Die Video-Super-Resolution-(VSR)-Technologie zeichnet sich durch ihre Fähigkeit aus, niedrigqualitative Videos wiederherzustellen, wodurch unangenehme Verschmierungs-Effekte vermieden werden, die durch interpolationsbasierte Algorithmen verursacht werden. Allerdings behindern die enorme Berechnungskomplexität und der hohe Speicherbedarf die praktische Anwendbarkeit an Edge-Geräten und die Echtzeit-Inferenz in realen Anwendungsszenarien, insbesondere bei großskaligen VSR-Aufgaben. In dieser Arbeit wird die Möglichkeit eines Echtzeit-VSR-Systems untersucht, und ein effizienter und allgemeiner VSR-Netzwerkansatz, der als EGVSR bezeichnet wird, vorgestellt. Das vorgeschlagene EGVSR basiert auf einer raumzeitlichen adversarialen Lernstrategie zur Gewährleistung einer hohen zeitlichen Kohärenz. Um eine schnellere Verarbeitungsgeschwindigkeit bis hin zu 4K-Auflösung zu erreichen, wird ein leichtgewichtiger Netzwerk-Aufbau sowie eine effiziente Up-Sampling-Methode gewählt, um den Berechnungsaufwand des EGVSR-Netzwerks unter Beibehaltung einer hohen visuellen Qualität zu minimieren. Zudem werden auf der tatsächlichen Hardwareplattform Techniken zur Beschleunigung neuronaler Netze implementiert, darunter die Fusion der Batch-Normalisierung, beschleunigte Faltungs-Algorithmen und weitere Optimierungsmaßnahmen zur Verbesserung des Inferenzprozesses. Abschließend erreicht unser EGVSR eine Echtzeit-Verarbeitungsgeschwindigkeit von 4K@29,61 FPS. Im Vergleich zu TecoGAN, dem derzeit fortschrittlichsten VSR-Netzwerk, gelingt es uns, die Berechnungsdichte um 85,04 % zu reduzieren und die Leistungsgeschwindigkeit um das 7,92-fache zu steigern. In Bezug auf die visuelle Qualität übertrifft das vorgeschlagene EGVSR andere state-of-the-art-Methoden hinsichtlich verschiedener Metriken (z. B. LPIPS, tOF, tLP) auf dem öffentlichen Testdatensatz Vid4 und erzielt die beste Gesamtleistung. Der Quellcode dieses Projekts ist unter https://github.com/Thmen/EGVSR verfügbar.