Lernen von unbalancierten Daten mit Vision Transformers

Die in der Praxis vorliegenden Daten sind oft stark unbalanciert und verzerren tiefen neuronalen Netzen, die datengetrieben sind, erheblich, was die Aufgabe des Long-Tailed Recognition (LTR) zu einer herausfordernden Aufgabe macht. Bisherige LTR-Methoden trainieren Vision Transformers (ViTs) selten direkt mit langschwänzigen (LT) Daten, während die vorgefertigten Vortrain-Weight von ViTs häufig zu unfairen Vergleichen führen. In diesem Paper untersuchen wir systematisch die Leistungsfähigkeit von ViTs im LTR und stellen LiVT vor, ein Verfahren, das ViTs ausschließlich anhand von LT-Daten von Grund auf trainiert. Aufgrund der Beobachtung, dass ViTs Problemen im LTR stärker ausgesetzt sind, führen wir Masked Generative Pretraining (MGP) durch, um allgemeinere Merkmale zu erlernen. Mit umfangreichen und zuverlässigen Experimenten zeigen wir, dass MGP robuster ist als herkömmliche überwachte Ansätze. Zudem begegnet die Binary Cross Entropy (BCE)-Verlustfunktion, die bei ViTs eine herausragende Leistung zeigt, im Kontext des LTR erheblichen Schwierigkeiten. Wir schlagen daher die ausgewogene BCE (Bal-BCE) vor, die auf einer soliden theoretischen Grundlage beruht. Insbesondere leiten wir eine unverzerrte Erweiterung der Sigmoid-Funktion her und ergänzen zusätzliche Logit-Margen zur Implementierung. Unser Bal-BCE trägt zur schnellen Konvergenz von ViTs innerhalb nur weniger Epochen bei. Umfangreiche Experimente belegen, dass LiVT mit MGP und Bal-BCE ViTs erfolgreich ohne zusätzliche Daten trainiert und vergleichbare State-of-the-Art-Methoden signifikant übertrifft, beispielsweise erreicht unser ViT-B auf iNaturalist 2018 eine Top-1-Accuracy von 81,0 % ohne zusätzliche Optimierungen. Der Quellcode ist unter https://github.com/XuZhengzhuo/LiVT verfügbar.