ReLaX-VQA : Extraction de fragments résiduels et de couches empilées pour améliorer l'évaluation de la qualité vidéo

Avec la croissance rapide du contenu généré par les utilisateurs (UGC) échangé entre les utilisateurs et les plateformes de partage, le besoin d'évaluation de la qualité des vidéos dans des conditions réelles devient de plus en plus évident. L'UGC est généralement acquis à l'aide de dispositifs grand public et subit plusieurs cycles de compression (transcodage) avant d'atteindre l'utilisateur final. Par conséquent, les métriques traditionnelles de qualité qui utilisent le contenu original comme référence ne sont pas adaptées. Dans cet article, nous proposons ReLaX-VQA, un nouveau modèle d'évaluation de la qualité vidéo sans référence (NR-VQA) visant à relever les défis liés à l'évaluation de la qualité de contenus vidéo diversifiés sans recours aux vidéos originales non compressées. ReLaX-VQA utilise les différences entre les images pour sélectionner intelligemment des fragments spatio-temporels, ainsi que différentes expressions des caractéristiques spatiales associées aux images échantillonnées. Ces éléments sont ensuite utilisés pour mieux capturer les variations spatiales et temporelles dans la qualité des images voisines. De plus, le modèle améliore l'abstraction en employant des techniques de superposition de couches sur les caractéristiques issues des réseaux neuronaux profonds, notamment des Residual Networks et des Vision Transformers. Des tests approfondis sur quatre jeux de données UGC montrent que ReLaX-VQA surpasse constamment les méthodes NR-VQA existantes, atteignant une moyenne SRCC de 0,8658 et une moyenne PLCC de 0,8873. Le code source ouvert et les modèles entraînés qui faciliteront des recherches et applications supplémentaires en NR-VQA peuvent être trouvés à l'adresse suivante : https://github.com/xinyiW915/ReLaX-VQA.