Détection des données hors distribution avec les plus proches voisins profonds

La détection des données hors distribution (OOD) constitue une tâche cruciale pour le déploiement des modèles d’apprentissage automatique dans un environnement ouvert. Les méthodes basées sur les distances ont montré un potentiel prometteur, où les échantillons de test sont identifiés comme OOD lorsqu’ils sont relativement éloignés des données in-distribution (ID) dans l’espace des caractéristiques. Toutefois, les approches antérieures imposent des hypothèses fortes sur la distribution sous-jacente de cet espace, hypothèses qui ne tiennent pas toujours. Dans cet article, nous explorons l’efficacité de la distance non paramétrique basée sur les plus proches voisins pour la détection OOD, un domaine largement négligé dans la littérature. Contrairement aux travaux antérieurs, notre méthode ne fait aucune hypothèse sur la distribution, offrant ainsi une flexibilité et une généralité accrues. Nous démontrons l’efficacité de la détection OOD basée sur les plus proches voisins sur plusieurs benchmarks, établissant des performances supérieures. En utilisant le même modèle entraîné sur ImageNet-1k, notre méthode réduit significativement le taux de faux positifs (FPR@TPR95) de 24,77 % par rapport à un modèle de référence solide, SSD+, qui utilise une approche paramétrique fondée sur la distance de Mahalanobis. Le code est disponible à l’adresse suivante : https://github.com/deeplearning-wisc/knn-ood.