Steigerung der Vertrauenswürdigkeit von Deep Neural Networks durch Genauigkeitsüberwachung

Die Inferenzgenauigkeit von tiefen neuronalen Netzen (DNNs) ist ein entscheidender Leistungsparameter, variiert jedoch in der Praxis erheblich je nach tatsächlichem Testdatensatz und ist aufgrund des Fehlens von Ground-Truth-Labels typischerweise unbekannt. Dies wirft erhebliche Bedenken hinsichtlich der Vertrauenswürdigkeit von DNNs auf, insbesondere in sicherheitskritischen Anwendungen. In diesem Paper adressieren wir die Vertrauenswürdigkeit von DNNs durch eine nachträgliche Verarbeitung, die die wahre Inferenzgenauigkeit auf dem Datensatz eines Nutzers überwacht. Konkret schlagen wir ein auf neuronalen Netzen basierendes Genauigkeitsüberwachungsmodell vor, das lediglich die Softmax-Wahrscheinlichkeitsausgabe des bereitgestellten DNNs als Eingabe verwendet und direkt vorhersagt, ob die Vorhersage des DNNs korrekt ist oder nicht, wodurch eine Schätzung der wahren Inferenzgenauigkeit ermöglicht wird. Das Genauigkeitsüberwachungsmodell kann vorab auf einem Datensatz trainiert werden, der der Zielanwendung entspricht, und benötigt lediglich eine aktive Etikettierung eines kleinen Anteils (1 % in unseren Experimenten) des Nutzerdatensatzes zur Modellübertragung. Zur Verbesserung der Robustheit der Schätzung setzen wir zudem einen Ensemble aus Überwachungsmodellen ein, basierend auf der Monte-Carlo-Dropout-Methode. Wir evaluieren unseren Ansatz an verschiedenen bereitgestellten DNN-Modellen für die Bildklassifikation und die Verkehrszeichenerkennung über mehrere Datensätze (einschließlich adversarialer Beispiele). Die Ergebnisse zeigen, dass unser Genauigkeitsüberwachungsmodell eine nahe an der tatsächlichen Genauigkeit liegende Schätzung liefert und die bestehenden Baseline-Methoden übertrifft.