Approfondir la détection des données hors distribution à l’aide de représentations vision-langage

La détection des échantillons hors distribution (OOD) est cruciale pour les systèmes d’apprentissage automatique déployés dans un environnement ouvert. La grande majorité des méthodes actuelles de détection OOD reposent sur une seule modalité (par exemple, uniquement vision ou langage), laissant ainsi inutilisées les richesses d’information contenues dans les représentations multi-modales. Inspirés par les récents succès de la pré-formation vision-langage, ce papier enrichit le paysage de la détection OOD en passant d’un cadre mono-modal à un cadre multi-modal. Plus précisément, nous proposons Maximum Concept Matching (MCM), une méthode simple mais efficace de détection OOD en zéro-shot fondée sur l’alignement entre les caractéristiques visuelles et les concepts textuels. Nous apportons une analyse approfondie ainsi que des perspectives théoriques pour mieux comprendre l’efficacité de MCM. Des expériences étendues démontrent que MCM atteint des performances supérieures sur une large variété de tâches du monde réel. En utilisant des caractéristiques vision-langage, MCM surpasse une méthode de référence classique basée uniquement sur des caractéristiques visuelles de 13,1 % (AUROC) sur une tâche OOD difficile impliquant des classes sémantiquement similaires. Le code est disponible à l’adresse suivante : https://github.com/deeplearning-wisc/MCM.