DisCoPatch: Batch-Statistiken sind alles, was Sie für die OOD-Erkennung benötigen, aber nur wenn Sie ihnen vertrauen können.

Die Erkennung von Out-of-Distribution (OOD)-Daten hat eine große Bedeutung in vielen Anwendungen. Während semantische und domänenbezogene OOD-Probleme gut untersucht sind, konzentriert sich diese Arbeit auf Kovariatenverschiebungen – subtile Veränderungen in der Datenverteilung, die die Leistung von Maschinellem Lernen beeinträchtigen können. Wir vermuten, dass die Erkennung dieser subtilen Verschiebungen unser Verständnis der Grenzen innerhalb der Verteilung verbessern kann, was letztlich die OOD-Erkennung optimiert. In adversären Diskriminatoren, die mit Batch Normalization (BN) trainiert werden, bilden reale und adversäre Proben unterschiedliche Domänen mit einzigartigen Batch-Statistiken – eine Eigenschaft, die wir für die OOD-Erkennung nutzen. Wir stellen DisCoPatch vor, einen unüberwachten Adversarial Variational Autoencoder (VAE)-Framework, der dieses Mechanismus nutzt. Während des Inferenzprozesses bestehen Batches aus Bildausschnitten (Patches) desselben Bildes, was eine konsistente Datenverteilung gewährleistet und es dem Modell ermöglicht, sich auf Batch-Statistiken zu stützen. DisCoPatch verwendet suboptimale Ausgaben des VAEs (generierte und rekonstruierte) als Negative Beispiele zur Schulung des Diskriminators, wodurch seine Fähigkeit verbessert wird, die Grenze zwischen in-Distribution-Proben und Kovariatenverschiebungen klar abzugrenzen. Durch das Verengen dieser Grenze erreicht DisCoPatch Spitzenwerte in öffentlichen OOD-Erkennungsbenchmarks. Das vorgeschlagene Modell erzielt nicht nur hervorragende Ergebnisse bei der Erkennung von Kovariatenverschiebungen mit einem AUROC von 95,5 % auf ImageNet-1K(-C), sondern übertrifft auch alle bisherigen Methoden bei öffentlichen Near-OOD-Benchmarks (95,0 %). Mit einer kompakten Modellgröße von 25 MB erreicht es eine hohe OOD-Erkennungsleistung bei deutlich geringerer Latenz als existierende Methoden, was es zu einer effizienten und praktischen Lösung für realweltliche OOD-Erkennungsanwendungen macht. Der Code wird öffentlich zugänglich gemacht.