HyperAIHyperAI
il y a 3 mois

Système de super-résolution en temps réel pour vidéos 4K basé sur l'apprentissage profond

Yanpeng Cao, Chengcheng Wang, Changjun Song, Yongming Tang, He Li
Système de super-résolution en temps réel pour vidéos 4K basé sur l'apprentissage profond
Résumé

La technologie de super-résolution vidéo (VSR) se distingue par sa capacité à reconstruire des vidéos de faible qualité, tout en évitant les effets indésirables de flou inhérents aux algorithmes basés sur l’interpolation. Toutefois, la complexité computationnelle élevée et la forte consommation mémoire entravent son déploiement sur les bords (edge) et sa capacité d’inférence en temps réel dans des applications pratiques, en particulier pour des tâches de VSR à grande échelle. Ce papier explore la faisabilité d’un système de VSR en temps réel et conçoit un réseau VSR efficace et générique, nommé EGVSR. Le modèle EGVSR repose sur un apprentissage adversaire spatio-temporel afin d’assurer une cohérence temporelle élevée. Afin d’atteindre une capacité de traitement vidéo ultra-rapide jusqu’à la résolution 4K, cette étude adopte une architecture de réseau légère et une méthode d’interpolation efficace, tout en garantissant une qualité visuelle élevée. Par ailleurs, nous avons implémenté sur une plateforme matérielle réelle des techniques d’accélération de réseau neuronal, notamment la fusion du calcul de normalisation par lot (batch normalization) et des algorithmes d’accélération convolutifs, afin d’optimiser le processus d’inférence du réseau EGVSR. En fin de compte, EGVSR atteint une capacité de traitement en temps réel de 4K à 29,61 FPS. Comparé à TecoGAN, le modèle VSR le plus avancé actuellement disponible, notre approche réalise une réduction de 85,04 % de la densité computationnelle et une accélération de performance de 7,92 fois. En termes de qualité visuelle, EGVSR se classe en tête sur plusieurs métriques publiques (telles que LPIPS, tOF, tLP, etc.) sur le jeu de données Vid4, et surpasser les méthodes de pointe existantes en score global. Le code source de ce projet est disponible à l’adresse suivante : https://github.com/Thmen/EGVSR.

Système de super-résolution en temps réel pour vidéos 4K basé sur l'apprentissage profond | Articles de recherche | HyperAI