Detektion von Ausreißern mit tiefen nächsten Nachbarn

Die Erkennung von außerhalb der Verteilung (Out-of-Distribution, OOD) liegenden Daten ist eine zentrale Aufgabe für die Anwendung von Maschinenlernmodellen in offenen Welten. Distanzbasierende Methoden haben vielversprechende Ergebnisse gezeigt, bei denen Testbeispiele als OOD erkannt werden, wenn sie relativ weit von den in-distribution (ID) Daten entfernt sind. Allerdings beruhen bisherige Ansätze auf starken Verteilungsannahmen bezüglich des zugrundeliegenden Merkmalsraums, die nicht immer gültig sind. In diesem Paper untersuchen wir die Wirksamkeit von nichtparametrischen, auf nächster-Nachbar-Distanz basierenden Methoden zur OOD-Erkennung, die in der Literatur bisher weitgehend vernachlässigt wurden. Im Gegensatz zu früheren Arbeiten setzen unsere Methode keine Verteilungsannahmen voraus, was eine höhere Flexibilität und Allgemeingültigkeit ermöglicht. Wir belegen die Effektivität der auf nächster-Nachbar-Distanz basierenden OOD-Erkennung an mehreren Benchmarks und erreichen überlegene Leistung. Unter Verwendung desselben Modells, das auf ImageNet-1k trainiert wurde, reduziert unsere Methode die Falsch-Positiv-Rate (FPR@TPR95) im Vergleich zu einem starken Baseline-Verfahren (SSD+), das eine parametrische Methode – die Mahalanobis-Distanz – zur Erkennung verwendet – um 24,77 %. Der Quellcode ist verfügbar unter: https://github.com/deeplearning-wisc/knn-ood.