L'efficacité irraisonnable des caractéristiques profondes comme métrique perceptuelle

Bien que l'évaluation rapide de la similarité perceptive entre deux images soit presque sans effort pour les humains, les processus sous-jacents sont considérés comme étant assez complexes. Malgré cela, les métriques perceptuelles les plus utilisées aujourd'hui, telles que le PSNR et le SSIM, sont des fonctions simples et peu profondes, qui ne prennent pas en compte de nombreuses nuances de la perception humaine. Récemment, la communauté de l'apprentissage profond a découvert que les caractéristiques du réseau VGG formé sur la classification ImageNet ont été remarquablement utiles comme fonction de perte d'entraînement pour la synthèse d'images. Mais à quel point ces soi-disant « pertes perceptuelles » sont-elles réellement perceptuelles ? Quels éléments sont critiques pour leur succès ? Pour répondre à ces questions, nous introduisons un nouveau jeu de données contenant des jugements de similarité perceptive humaine. Nous évaluons systématiquement les caractéristiques profondes à travers différentes architectures et tâches et les comparons avec les métriques classiques. Nous constatons que les caractéristiques profondes surpassent toutes les métriques précédentes avec une grande marge sur notre jeu de données. Plus surprenant encore, ce résultat n'est pas limité aux caractéristiques VGG formées sur ImageNet, mais s'étend à différentes architectures profondes et niveaux de supervision (supervisée, auto-supervisée ou même non supervisée). Nos résultats suggèrent que la similarité perceptive est une propriété émergente partagée parmi les représentations visuelles profondes.