Entraînement contrastif pour une détection améliorée des données hors distribution

La détection fiable des entrées hors distribution (OOD, out-of-distribution) est de plus en plus considérée comme une condition préalable indispensable au déploiement des systèmes d’apprentissage automatique. Ce papier propose et explore l’utilisation de l’entraînement contrastif afin d’améliorer les performances de détection OOD. Contrairement aux méthodes les plus avancées de détection OOD, notre approche ne nécessite pas l’accès à des exemples explicitement étiquetés comme OOD, ce qui peut s’avérer difficile à obtenir en pratique. Nous démontrons, à travers des expérimentations étendues, que l’entraînement contrastif améliore significativement les performances de détection OOD sur plusieurs benchmarks courants. En introduisant et en utilisant le score de probabilité de confusion (CLP, Confusion Log Probability), qui quantifie la difficulté de la tâche de détection OOD en capturant la similarité entre les ensembles de données d’entrée (inliers) et de sortie (outliers), nous montrons que notre méthode améliore particulièrement les performances dans les catégories « proches de OOD » — un cadre particulièrement difficile pour les méthodes antérieures.