2BiVQA : Évaluation de la Qualité Vidéo basée sur un Double Bi-LSTM pour les Vidéos UGC

Récemment, avec l’essor croissant des appareils mobiles ainsi que des plateformes de partage de vidéos (comme YouTube, Facebook, TikTok et Twitch), les contenus vidéo générés par les utilisateurs (UGC, User-Generated Content) sont devenus de plus en plus fréquents et représentent désormais une part importante du trafic multimédia sur Internet. Contrairement aux vidéos professionnellement produites par des cinéastes et des vidéastes, les vidéos UGC contiennent généralement plusieurs dégradations authentiques, souvent introduites lors de la capture et du traitement par des utilisateurs non expérimentés. La prédiction de la qualité des vidéos UGC revêt une importance capitale pour optimiser et surveiller leur traitement sur les plateformes d’hébergement, notamment en matière de codage, de transcoding et de diffusion en continu. Toutefois, la prédiction aveugle de la qualité des vidéos UGC s’avère particulièrement difficile, en raison de la diversité et de l’incertitude des dégradations subies, ainsi que du manque de référence originale (pristine). Dans ce travail, nous proposons un modèle précis et efficace d’évaluation aveugle de la qualité vidéo (BVQA, Blind Video Quality Assessment) dédié aux vidéos UGC, que nous appelons 2BiVQA, pour « double Bi-LSTM Video Quality Assessment ». Le métrique 2BiVQA se compose de trois blocs principaux : un réseau neuronal convolutif (CNN) pré-entraîné pour extraire des caractéristiques discriminantes à partir de patches d’image, lesquels sont ensuite transmis à deux réseaux de neurones récurrents (RNN) afin d’effectuer un regroupement spatial et temporel. Plus précisément, nous utilisons deux réseaux Bi-directionnels à mémoire à long et court terme (Bi-LSTM) : le premier permet de capturer les dépendances à courte portée entre les patches d’image, tandis que le second permet de modéliser les dépendances à longue portée entre les trames, afin de tenir compte de l’effet de mémoire temporelle. Les résultats expérimentaux sur des jeux de données récents et de grande taille dédiés à l’évaluation de la qualité vidéo UGC montrent que 2BiVQA atteint des performances élevées tout en nécessitant un coût computationnel inférieur à la plupart des modèles d’état de l’art en VQA. Le code source de notre métrique 2BiVQA est mis à disposition publiquement à l’adresse suivante : https://github.com/atelili/2BiVQA