HyperAIHyperAI

Command Palette

Search for a command to run...

Neu-etikettieren von ImageNet: von Einzel- zu Mehrfachlabels, von globalen zu lokalisierten Labels

Sangdoo Yun Seong Joon Oh Byeongho Heo Dongyoon Han Junsuk Choe Sanghyuk Chun

Zusammenfassung

ImageNet gilt mit großer Wahrscheinlichkeit als der beliebteste Benchmark für Bildklassifikation, ist jedoch auch derjenige mit einem erheblichen Grad an Label-Rauschen. Neuere Studien haben gezeigt, dass viele Bilder mehrere Klassen enthalten, obwohl ImageNet ursprünglich als Einzelklassen-Benchmark angenommen wurde. Daher wurde vorgeschlagen, die ImageNet-Evaluation in eine Mehrklassen-Aufgabe umzuwandeln, wobei jeder Bildsample umfassende Mehrklassen-Annotationen erhält. Allerdings wurde der Trainingsdatensatz bisher nicht korrigiert, vermutlich aufgrund der immensen Kosten für die Annotation. Wir argumentieren, dass die Diskrepanz zwischen Einzelklassen-Annotationen und tatsächlich mehrklassigen Bildern im Trainingssetup mindestens ebenso problematisch, wenn nicht sogar noch problematischer ist, insbesondere da bei der Datenverarbeitung zufällige Ausschnitte (random crops) verwendet werden. Mit den ursprünglichen Einzelklassen-Annotationen kann ein zufällig ausgewählter Ausschnitt eines Bildes ein völlig anderes Objekt enthalten als die tatsächliche Ground-Truth, was während des Trainings zu verrauschter oder sogar falscher Supervision führt. Wir re-labeln daher den ImageNet-Trainingsdatensatz mit Mehrklassen-Annotationen. Um die hohen Kosten der Annotation zu überwinden, nutzen wir einen starken Bildklassifikator, der auf einer zusätzlichen Datenquelle trainiert wurde, um die Mehrklassen-Labels zu generieren. Dabei nutzen wir die pixelgenauen Mehrklassen-Vorhersagen vor der endgültigen Pooling-Schicht, um zusätzliche ortsspezifische Supervisionsignale zu erschließen. Das Training auf den neu annotierten Daten führt zu einer allgemeinen Verbesserung der Modellleistung. ResNet-50 erreicht mit unseren lokalisierten Mehrklassen-Labels eine Top-1-Klassifikationsgenauigkeit von 78,9 % auf ImageNet, die sich durch die Anwendung der CutMix-Regularisierung auf 80,2 % steigern lässt. Wir zeigen zudem, dass Modelle, die mit lokalisierten Mehrklassen-Labels trainiert wurden, sowohl bei der Transfer-Learning-Aufgabe zur Objekterkennung und Instanzsegmentierung als auch bei verschiedenen Robustheitsbenchmarks die Baselines übertrifft. Der neu annotierte ImageNet-Trainingsdatensatz, vortrainierte Gewichte sowie der Quellcode sind unter {https://github.com/naver-ai/relabel_imagenet} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp