Sehr einfache Aktivierungsformung für die Detektion von Außerhalb der Verteilung liegenden Daten

Die Trennung zwischen Training und Einsatz von maschinellen Lernmodellen bedeutet, dass nicht alle während des Einsatzes auftretenden Szenarien im Training vorhersehbar sind, weshalb sich allein auf Fortschritte im Training zu verlassen, seine Grenzen hat. Die Erkennung von Daten außerhalb der Verteilung (Out-of-Distribution, OOD) ist ein zentraler Bereich, der die Fähigkeit eines Modells testet, mit unbekannten Situationen umzugehen: Erkennen Modelle, wenn sie nicht wissen? Bisherige Ansätze zur OOD-Erkennung erfordern entweder zusätzliche Trainingsphasen, weiteres Datenaufwand oder erhebliche Modifikationen am bereits trainierten Netzwerk. Im Gegensatz dazu schlagen wir in dieser Arbeit eine äußerst einfache, nachträgliche und dynamische Methode zur Aktivierungsumformung, ASH (Activation Shaping at Inference), vor: Dabei wird ein großer Teil (z. B. 90 %) der Aktivierung eines Datensatzes in einer späten Schicht entfernt, während der verbleibende Teil (z. B. 10 %) vereinfacht oder leicht angepasst wird. Die Umformung erfolgt zur Inferenzzeit und erfordert keine Statistiken, die aus den Trainingsdaten berechnet wurden. Experimente zeigen, dass diese einfache Behandlung die Unterscheidung zwischen in-distribution und out-of-distribution Daten erheblich verbessert und eine state-of-the-art OOD-Erkennung auf ImageNet ermöglicht, ohne die Genauigkeit für in-distribution-Daten signifikant zu verschlechtern. Video, Animation und Code sind verfügbar unter: https://andrijazz.github.io/ash