vor 17 Tagen

Neu-etikettieren von ImageNet: von Einzel- zu Mehrfachlabels, von globalen zu lokalisierten Labels

Sangdoo Yun, Seong Joon Oh, Byeongho Heo, Dongyoon Han, Junsuk Choe, Sanghyuk Chun

Abstract

ImageNet gilt mit großer Wahrscheinlichkeit als der beliebteste Benchmark für Bildklassifikation, ist jedoch auch derjenige mit einem erheblichen Grad an Label-Rauschen. Neuere Studien haben gezeigt, dass viele Bilder mehrere Klassen enthalten, obwohl ImageNet ursprünglich als Einzelklassen-Benchmark angenommen wurde. Daher wurde vorgeschlagen, die ImageNet-Evaluation in eine Mehrklassen-Aufgabe umzuwandeln, wobei jeder Bildsample umfassende Mehrklassen-Annotationen erhält. Allerdings wurde der Trainingsdatensatz bisher nicht korrigiert, vermutlich aufgrund der immensen Kosten für die Annotation. Wir argumentieren, dass die Diskrepanz zwischen Einzelklassen-Annotationen und tatsächlich mehrklassigen Bildern im Trainingssetup mindestens ebenso problematisch, wenn nicht sogar noch problematischer ist, insbesondere da bei der Datenverarbeitung zufällige Ausschnitte (random crops) verwendet werden. Mit den ursprünglichen Einzelklassen-Annotationen kann ein zufällig ausgewählter Ausschnitt eines Bildes ein völlig anderes Objekt enthalten als die tatsächliche Ground-Truth, was während des Trainings zu verrauschter oder sogar falscher Supervision führt. Wir re-labeln daher den ImageNet-Trainingsdatensatz mit Mehrklassen-Annotationen. Um die hohen Kosten der Annotation zu überwinden, nutzen wir einen starken Bildklassifikator, der auf einer zusätzlichen Datenquelle trainiert wurde, um die Mehrklassen-Labels zu generieren. Dabei nutzen wir die pixelgenauen Mehrklassen-Vorhersagen vor der endgültigen Pooling-Schicht, um zusätzliche ortsspezifische Supervisionsignale zu erschließen. Das Training auf den neu annotierten Daten führt zu einer allgemeinen Verbesserung der Modellleistung. ResNet-50 erreicht mit unseren lokalisierten Mehrklassen-Labels eine Top-1-Klassifikationsgenauigkeit von 78,9 % auf ImageNet, die sich durch die Anwendung der CutMix-Regularisierung auf 80,2 % steigern lässt. Wir zeigen zudem, dass Modelle, die mit lokalisierten Mehrklassen-Labels trainiert wurden, sowohl bei der Transfer-Learning-Aufgabe zur Objekterkennung und Instanzsegmentierung als auch bei verschiedenen Robustheitsbenchmarks die Baselines übertrifft. Der neu annotierte ImageNet-Trainingsdatensatz, vortrainierte Gewichte sowie der Quellcode sind unter {https://github.com/naver-ai/relabel_imagenet} verfügbar.