Une base efficace pour la robustesse aux décalages de distribution

S’abstenir de faire des prédictions avec confiance lorsqu’on est confronté à des catégories d’entrées différentes de celles observées pendant l’entraînement constitue une exigence fondamentale pour le déploiement sûr des systèmes d’apprentissage profond. Bien que cette idée soit simple à énoncer, elle représente un défi particulièrement difficile dans le domaine de l’apprentissage profond, où les modèles ont tendance à produire des prédictions excessivement confiantes dans de telles situations. Dans ce travail, nous proposons une approche simple mais extrêmement efficace pour la détection de données hors distribution (out-of-distribution, OoD), fondée sur le principe d’abstention : lorsque le modèle rencontre un échantillon provenant d’une classe non vue, le comportement souhaité est de s’abstenir de prédire. Notre méthode utilise un réseau comportant une classe supplémentaire d’abstention, entraîné sur un ensemble de données augmenté par un ensemble non curatifs comprenant un grand nombre d’échantillons hors distribution, tous étiquetés avec la classe d’abstention. Le modèle est ainsi formé pour apprendre un discriminant efficace entre les échantillons in-distribution et ceux hors distribution. Nous comparons cette approche relativement simple à une large gamme de méthodes plus complexes proposées tant pour la détection de données hors distribution que pour la modélisation de l’incertitude en apprentissage profond. Nous démontrons empiriquement son efficacité sur de nombreux benchmarks ainsi que sur diverses architectures profondes pour la reconnaissance d’images et la classification de texte, dépassant souvent les approches existantes avec des marges significatives. Étant donné sa simplicité et son efficacité, nous proposons que cette méthode soit adoptée comme une nouvelle référence (baseline) additionnelle pour les travaux futurs dans ce domaine.