Tiefhybride Modelle zur Detektion von Außerhalb-Verteilung-Daten

Wir schlagen eine prinzipiengeleitete und praktikable Methode zur Erkennung von Daten außerhalb der Verteilung (Out-of-Distribution, OoD) mit tiefen hybriden Modellen (Deep Hybrid Models, DHMs) vor, die die gemeinsame Dichte p(x,y) von Merkmalen und Labels bereits in einem einzigen Vorwärtsdurchlauf modellieren. Durch die Faktorisierung der gemeinsamen Dichte p(x,y) in drei Quellen der Unsicherheit zeigen wir, dass unser Ansatz in der Lage ist, Proben zu identifizieren, die semantisch von den Trainingsdaten abweichen. Um die rechnerische Skalierbarkeit sicherzustellen, führen wir während des Trainings einen Schritt der Gewichtsnormalisierung ein, der es uns ermöglicht, state-of-the-art (SoTA) tiefe neuronale Netzwerke (DNNs) nahezu beliebig einzubinden, um expressive Wahrscheinlichkeitsverteilungen effizient zu modellieren und abzuleiten. Unser Verfahren bietet einen effizienten, allgemeinen und flexiblen Rahmen zur Schätzung der prädiktiven Unsicherheit mit vielversprechenden Ergebnissen und theoretischer Begründung. Soweit uns bekannt ist, ist dies die erste Arbeit, die bei OoD-Erkennungsaufgaben sowohl auf visuellen als auch auf sprachbasierten Datensätzen eine Genauigkeit von 100 % erreicht, insbesondere bei besonders anspruchsvollen Datensatzpaaren wie CIFAR-10 vs. SVHN und CIFAR-100 vs. CIFAR-10. Dieser Beitrag stellt einen wichtigen Schritt dar, um tiefe neuronale Netze für den Einsatz in sicherheitskritischen Anwendungen in der realen Welt zu befähigen.