DisCoPatch : Les Statistiques par Lots Sont Tout Ce Dont Vous Avez Besoin Pour la Détection OOD, Mais Seulement Si Vous Pouvez Leur Faire Confiance

La détection des données hors distribution (Out-of-Distribution, OOD) revêt une importance considérable dans de nombreuses applications. Bien que les problèmes OOD sémantiques et de changement de domaine soient bien étudiés, cette recherche se concentre sur les décalages des covariables (covariate shifts) – des variations subtiles dans la distribution des données qui peuvent dégrader les performances de l'apprentissage automatique. Nous formulons l'hypothèse selon laquelle la détection de ces variations subtiles peut améliorer notre compréhension des limites de la distribution en cours, ce qui pourrait finalement améliorer la détection OOD. Dans les discriminateurs adverses entraînés avec la Normalisation par lots (Batch Normalization, BN), les échantillons réels et adverses forment des domaines distincts avec des statistiques par lots uniques – une propriété que nous exploitons pour la détection OOD.Nous présentons DisCoPatch, un cadre d'Adversarial Variational Autoencoder (VAE) non supervisé qui utilise ce mécanisme. Lors de l'inférence, les lots sont composés de patches provenant de la même image, garantissant ainsi une distribution de données cohérente qui permet au modèle de s'appuyer sur les statistiques par lots. DisCoPatch utilise les sorties sous-optimales du VAE (générées et reconstruites) comme échantillons négatifs pour entraîner le discriminateur, ce qui améliore sa capacité à définir la frontière entre les échantillons en distribution et les décalages des covariables. En resserrant cette frontière, DisCoPatch obtient des résultats d'avant-garde dans les benchmarks publics de détection OOD. Le modèle proposé ne seulement excelle dans la détection des décalages des covariables, atteignant 95,5% d'AUROC sur ImageNet-1K(-C), mais il surpass également toutes les méthodes précédentes dans les benchmarks publics Near-OOD (95,0%).Avec une taille de modèle compacte de 25 Mo, il atteint une performance élevée en détection OOD à une latence notablement plus faible que celle des méthodes existantes, ce qui en fait une solution efficace et pratique pour les applications réelles de détection OOD. Le code sera rendu publiquement disponible.