Patch-VQ : « Réparer » le problème de qualité vidéo

L’évaluation sans référence (NR) de la qualité perceptive vidéo constitue un problème complexe, non résolu et d’une importance majeure pour les applications médiatiques sociales et de streaming. Des prédicteurs efficaces et précis de la qualité vidéo sont nécessaires afin de surveiller et guider le traitement de milliards de contenus générés par les utilisateurs (UGC), souvent imparfaits, partagés en ligne. Malheureusement, les modèles NR actuels se révèlent limités dans leur capacité à prédire la qualité sur des données réelles de vidéos UGC « in the wild ». Pour faire avancer ce domaine, nous avons créé la plus grande base de données subjective de qualité vidéo à ce jour, comprenant 39 000 vidéos déformées du monde réel et 117 000 patches vidéo localisés dans l’espace et le temps (dénommés « v-patches »), ainsi que 5,5 millions d’annotations humaines de qualité perceptive. À partir de cette base, nous avons développé deux modèles NR-VQA innovants : (a) une architecture NR-VQA fondée sur une approche locale-vers-globale basée sur les régions (appelée PVQ), capable de prédire la qualité vidéo globale et qui atteint des performances de pointe sur trois jeux de données UGC ; et (b) un moteur de cartographie de la qualité vidéo dans l’espace-temps, première du genre (appelé PVQ Mapper), permettant de localiser et visualiser les distorsions perçues dans l’espace et le temps. La base de données et les modèles de prédiction seront rendus disponibles immédiatement après l’achèvement du processus de révision.