Mesure de l’interprétabilité des représentations non supervisées par sondage inversé quantifié

L'apprentissage automatique de représentations visuelles auto-supervisées a suscité un intérêt de recherche considérable. Bien que la méthode la plus courante pour évaluer ces représentations repose sur leur transfert vers diverses tâches en aval, nous nous intéressons ici à la mesure de leur interprétabilité, c’est-à-dire à la compréhension des sémantiques encodées dans les représentations brutes. Nous formulons ce problème comme une estimation de l'information mutuelle entre la représentation et un espace de concepts étiquetés manuellement. Pour quantifier cette information, nous introduisons une contrainte de décodage : l'information doit être capturée par des prédicteurs simples, qui associent des concepts à des groupes de données formés dans l'espace de représentation. Cette approche, que nous appelons « sondage linéaire inverse », fournit une mesure unique sensible à la sémanticité de la représentation. Cette métrique est également capable de détecter lorsque la représentation est corrélée à des combinaisons de concepts étiquetés (par exemple, « pomme rouge ») plutôt qu’à des attributs individuels (« rouge » et « pomme » séparément). Enfin, nous proposons également que des classificateurs supervisés puissent être utilisés pour étiqueter automatiquement de grandes bases de données avec un espace riche d’attributs. À partir de ces observations, nous évaluons un grand nombre de représentations auto-supervisées, les classons selon leur interprétabilité, et mettons en évidence les différences observées par rapport à l’évaluation classique basée sur les sondages linéaires.