Modèles d'évaluation de qualité à référence complète et sans référence basés sur le deep learning pour les vidéos UGC compressées

Dans cet article, nous proposons un cadre d’évaluation de la qualité vidéo basé sur l’apprentissage profond (VQA) afin d’évaluer la qualité des vidéos générées par les utilisateurs (UGC) compressées. Le cadre VQA proposé se compose de trois modules : un module d’extraction de caractéristiques, un module de régression de qualité et un module de pooling de qualité. Pour le module d’extraction de caractéristiques, nous fusionnons les caractéristiques provenant des couches intermédiaires d’un réseau de neurones convolutifs (CNN) afin d’obtenir une représentation finale de caractéristiques sensible à la qualité, permettant ainsi au modèle d’exploiter pleinement l’information visuelle allant du niveau bas au niveau élevé. Plus précisément, pour le modèle VQA à référence complète (FR), les similitudes structurelles et texturales des cartes de caractéristiques extraites à partir de toutes les couches intermédiaires sont calculées comme représentation des caractéristiques ; quant au modèle VQA sans référence (NR), la moyenne globale et l’écart-type de la carte de caractéristiques finale, fusionnée à partir des caractéristiques intermédiaires, sont utilisées comme représentation des caractéristiques. Pour le module de régression de qualité, nous utilisons une couche entièrement connectée (FC) pour transformer les caractéristiques sensibles à la qualité en scores au niveau des trames. Enfin, une stratégie de pooling temporel inspirée des jugements subjectifs est adoptée pour agréger les scores au niveau des trames en un score au niveau de la vidéo. Le modèle proposé atteint les meilleurs résultats parmi les modèles d’état de l’art pour les VQA FR et NR sur la base de données Compressed UGC VQA, tout en obtenant également de bons résultats sur les bases de données UGC « in-the-wild ».