Steigerung der Ausserhalb-Verteilungs-Erkennung durch mehrere vortrainierte Modelle

Die Erkennung von Daten außerhalb der Trainingsverteilung (Out-of-Distribution, OOD), also die Identifizierung, ob eine Eingabe aus einer neuen, von der Trainingsverteilung abweichenden Verteilung stammt, ist eine entscheidende Aufgabe für die sichere Einsetzung von maschinellen Lernsystemen in offenen Umgebungen. In jüngster Zeit haben nachträgliche Erkennungsmethoden, die auf vortrainierten Modellen basieren, vielversprechende Leistungen gezeigt und sich gut für den Einsatz bei großskaligen Problemen skalieren lassen. Diese Fortschritte werfen eine natürliche Frage auf: Können wir die Vielfalt mehrerer vortrainierter Modelle nutzen, um die Leistung nachträglicher Erkennungsmethoden zu verbessern? In dieser Arbeit schlagen wir eine Verbesserungsmethode vor, die mehrere Detektionsentscheidungen aus einem „Zoo“ vortrainierter Modelle kombiniert. Unser Ansatz verwendet statt des üblichen harten Schwellenwerts den p-Wert und nutzt einen grundlegenden Rahmen der mehrfachen Hypothesenprüfung, um die Trefferquote für Daten innerhalb der Verteilung (In-Distribution, ID) zu kontrollieren. Wir konzentrieren uns auf die Nutzung von Modellzöllen und führen systematische empirische Vergleiche mit aktuellen State-of-the-Art-Methoden auf verschiedenen OOD-Erkennungsbenchmarks durch. Das vorgeschlagene Ensemble-Verfahren zeigt eine konsistente Verbesserung gegenüber Einzelmodell-Detektoren und übertrifft deutlich die derzeit konkurrenzfähigen Methoden. Unser Ansatz steigert die relative Leistung signifikant um 65,40 % und 26,96 % auf den Benchmarks CIFAR10 und ImageNet.