Synthèse non paramétrique d'outliers

La détection des données hors distribution (OOD) est indispensable pour déployer en toute sécurité des modèles d’apprentissage automatique dans des environnements réels. L’un des principaux défis réside dans le fait que les modèles ne disposent pas de signaux de supervision provenant des données inconnues, ce qui peut conduire à des prédictions excessivement confiantes sur les données OOD. Les travaux récents sur la synthèse d’outliers modélisent l’espace des caractéristiques comme une distribution gaussienne paramétrique, une hypothèse forte et restrictive qui peut ne pas tenir dans la réalité. Dans cet article, nous proposons un cadre novateur, appelé Synthèse d’Outliers Non-Paramétrique (NPOS), qui génère des données d’apprentissage artificielles OOD et facilite l’apprentissage d’une frontière de décision fiable entre les données intra-distribution (ID) et les données OOD. L’approche de synthèse proposée ne fait aucune hypothèse sur la distribution des embeddings ID, offrant ainsi une grande flexibilité et généralité. Nous montrons que notre méthode de synthèse peut être interprétée mathématiquement comme un cadre d’échantillonnage par rejet. Des expériences étendues montrent que NPOS permet d’obtenir des performances supérieures en détection OOD, surpassant significativement les méthodes concurrentes. Le code est disponible publiquement à l’adresse suivante : https://github.com/deeplearning-wisc/npos.