Zur Bedeutung von Gradienten für die Erkennung von Verteilungsshifts in der Wildbahn

Die Erkennung von außerhalb der Verteilung liegenden (out-of-distribution, OOD) Daten ist zu einem entscheidenden Bestandteil geworden, um den sicheren Einsatz von maschinellen Lernmodellen in der realen Welt zu gewährleisten. Bestehende Ansätze zur OOD-Erkennung stützen sich hauptsächlich auf die Ausgabe- oder Merkmalsräume zur Ableitung von OOD-Scores, während sie Informationen aus dem Gradientenraum weitgehend außer Acht lassen. In diesem Paper präsentieren wir GradNorm, einen einfachen und effektiven Ansatz zur Erkennung von OOD-Eingaben, der Informationen aus dem Gradientenraum nutzt. GradNorm verwendet direkt die Vektornorm der Gradienten, die rückwärts durch die Kullback-Leibler-Divergenz zwischen der Softmax-Ausgabe und einer gleichmäßigen Wahrscheinlichkeitsverteilung propagiert werden. Unser zentrales Konzept basiert darauf, dass die Größe der Gradienten für Daten innerhalb der Verteilung (in-distribution, ID) höher ist als für OOD-Daten, was sie zu einer informativen Größe für die OOD-Erkennung macht. GradNorm zeigt eine überlegene Leistung und reduziert den durchschnittlichen FPR95 gegenüber dem bisher besten Verfahren um bis zu 16,33 %.