Un modèle d’évaluation de qualité sans référence basé sur le deep learning pour les vidéos UGC

L’évaluation de la qualité des vidéos générées par les utilisateurs (UGC) joue un rôle crucial dans la garantie de l’expérience de visionnage des utilisateurs finaux. Les travaux précédents sur l’évaluation de la qualité des vidéos UGC (VQA) ont principalement recours à des modèles de reconnaissance d’images ou à des modèles d’évaluation de la qualité d’image (IQA) afin d’extraire des caractéristiques au niveau des trames pour la régression de la qualité. Ces approches sont considérées comme des solutions sous-optimales en raison des décalages de domaine entre ces tâches et la tâche de VQA UGC. Dans cet article, nous proposons un modèle de VQA UGC très simple mais efficace, qui vise à résoudre ce problème en entraînant un réseau d’extraction de caractéristiques spatiales end-to-end pour apprendre directement, à partir des pixels bruts des trames vidéo, une représentation spatiale sensible à la qualité. Nous extrayons également des caractéristiques de mouvement afin de mesurer les distorsions liées au temps, que les caractéristiques spatiales ne peuvent pas modéliser. Le modèle proposé utilise des trames très rares pour extraire les caractéristiques spatiales, et des trames denses (c’est-à-dire un segment vidéo) à très faible résolution spatiale pour extraire les caractéristiques de mouvement, ce qui confère au modèle une complexité computationnelle faible. Grâce à des caractéristiques de qualité améliorées, nous utilisons uniquement un réseau simple à couches multiples (MLP) pour régresser ces caractéristiques vers des scores de qualité au niveau du segment, puis appliquons une stratégie de pooling temporel moyen pour obtenir le score de qualité au niveau de la vidéo. Nous introduisons également une stratégie de fusion multi-échelle pour résoudre le problème de VQA à différentes résolutions spatiales, où les poids multi-échelle sont dérivés de la fonction de sensibilité au contraste du système visuel humain. Les résultats expérimentaux montrent que le modèle proposé atteint les meilleurs performances sur cinq bases de données populaires de VQA UGC, ce qui démontre son efficacité. Le code source sera rendu publiquement disponible.