Évaluation de la qualité d'image par apprentissage contrastif

Nous abordons le problème de l'obtention de représentations de qualité d'image de manière auto-supervisée. Nous utilisons la prédiction du type et du degré de distortion comme tâche auxiliaire afin d'apprendre des caractéristiques à partir d'un ensemble de données d'images non étiquetées comprenant un mélange de distorsions synthétiques et réalistes. Ensuite, nous entraînons un réseau neuronal convolutif profond (CNN) à l’aide d’un objectif contrastif par paires pour résoudre cette tâche auxiliaire. Nous désignons le cadre d'entraînement proposé et le modèle de qualité d'image profond résultant sous le nom de CONTRastive Image QUality Evaluator (CONTRIQUE). Lors de l'évaluation, les poids du CNN sont gelés et un régresseur linéaire mappe les représentations apprises vers des scores de qualité dans un cadre sans référence (NR). À travers des expériences étendues, nous démontrons que CONTRIQUE atteint des performances compétitives par rapport aux modèles d’état de l’art en évaluation de qualité d’image sans référence, même sans aucun ajustement fin (fine-tuning) supplémentaire du noyau CNN. Les représentations apprises s'avèrent hautement robustes et se généralisent efficacement aux images affectées par des distorsions soit synthétiques, soit authentiques. Nos résultats suggèrent qu’il est possible d’obtenir des représentations de qualité puissantes et pertinentes du point de vue perceptif, sans nécessiter de grands jeux de données étiquetés provenant d’évaluations subjectives. Les implémentations utilisées dans cet article sont disponibles à l’adresse suivante : \url{https://github.com/pavancm/CONTRIQUE}.