Évaluation unifiée de la qualité des vidéos en situation réelle par apprentissage sur des jeux de données mixtes

L’évaluation de la qualité vidéo (VQA) constitue un problème fondamental en vision par ordinateur. Les vidéos utilisées dans les applications de vision par ordinateur sont généralement capturées dans des environnements réels (in-the-wild). Nous nous concentrons sur l’évaluation automatique de la qualité de ces vidéos en situation réelle, un problème particulièrement difficile en raison de l’absence de vidéos de référence, de la complexité des dégradations présentes, ainsi que de la grande diversité du contenu vidéo. En outre, le contenu vidéo et les types de dégradations présents dans les jeux de données existants diffèrent considérablement, ce qui entraîne une performance médiocre des méthodes basées sur les données dans les évaluations inter-jeux de données. Afin d’améliorer les performances des modèles d’évaluation de qualité, nous nous inspirons des mécanismes de perception humaine, notamment la dépendance au contenu et les effets de mémoire temporelle du système visuel humain. Pour surmonter le défi de l’évaluation inter-jeux de données, nous explorons une stratégie d’apprentissage combiné sur plusieurs jeux de données afin d’entraîner un seul modèle VQA à partir de plusieurs sources de données. Le cadre unifié proposé intègre explicitement trois étapes : un évaluateur de qualité relative, une application non linéaire, et une alignement de l’échelle perceptuelle spécifique à chaque jeu de données, permettant ainsi de prédire conjointement la qualité relative, la qualité perceptuelle et la qualité subjective. Des expérimentations ont été menées sur quatre jeux de données publics dédiés à la VQA en situation réelle : LIVE-VQC, LIVE-Qualcomm, KoNViD-1k et CVD2014. Les résultats expérimentaux confirment l’efficacité de la stratégie d’apprentissage mixte et démontrent les performances supérieures du modèle unifié par rapport aux méthodes de pointe. Pour favoriser la recherche reproductible, nous mettons à disposition l’implémentation en PyTorch de notre méthode à l’adresse suivante : https://github.com/lidq92/MDTVSFA.