Ein Rahmenwerk zur Benchmarking von Klassenausserhalb-Verteilungs-Erkennung und seine Anwendung auf ImageNet

Bei der Anwendung für risikosensitive Aufgaben müssen tiefe neuronale Netze in der Lage sein, Instanzen mit Labels ausserhalb der Verteilung zu erkennen, für die sie trainiert wurden. In diesem Paper stellen wir einen neuartigen Rahmen vor, um die Fähigkeit von Bildklassifikatoren zu bewerten, Klassen-außerhalb-der-Verteilung (C-OOD)-Instanzen – also Instanzen mit echten Labels, die in der Trainingsverteilung nicht vorkommen – bei unterschiedlichen Schwierigkeitsgraden der Erkennung zu detektieren. Wir wenden diese Methode auf ImageNet an und benchmarken 525 vortrainierte, öffentlich verfügbare ImageNet-1k-Klassifikatoren. Der Code zur Generierung eines Benchmarks für beliebige ImageNet-1k-Klassifikatoren sowie die bereits für die genannten 525 Modelle erstellten Benchmarks sind unter https://github.com/mdabbah/COOD_benchmarking verfügbar.Die Nützlichkeit des vorgeschlagenen Rahmens und seine Vorteile gegenüber alternativen bestehenden Benchmarks werden durch die Analyse der Ergebnisse dieser Modelle nachgewiesen, wodurch zahlreiche neue Erkenntnisse gewonnen werden, darunter: (1) Knowledge Distillation verbessert konsistent die Leistung bei der C-OOD-Detektion; (2) eine Teilmenge von Vision Transformers (ViTs) erreicht eine bessere C-OOD-Detektion als alle anderen Modelle; (3) das Sprache–Vision-Modell CLIP erzielt gute Zero-Shot-Detektionsleistungen, wobei das beste Exemplar die Leistung von 96 % aller anderen evaluierten Modelle übertrifft; (4) Genauigkeit und Rangfolge innerhalb der Verteilung sind positiv mit der C-OOD-Detektionsleistung korreliert; und (5) wir vergleichen verschiedene Konfidenzfunktionen für die C-OOD-Detektion. Unser Begleitpaper, ebenfalls auf ICLR 2023 veröffentlicht („What Can We Learn From The Selective Prediction And Uncertainty Estimation Performance Of 523 Imagenet Classifiers“), untersucht die Unsicherheitsschätzung (Rangfolge, Kalibrierung und Leistung bei selektiver Vorhersage) dieser Klassifikatoren in einem innerhalb-der-Verteilung-Szenario.