HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von unbalancierten Daten mit Vision Transformers

Zhengzhuo Xu Ruikang Liu Shuo Yang Zenghao Chai Chun Yuan

Zusammenfassung

Die in der Praxis vorliegenden Daten sind oft stark unbalanciert und verzerren tiefen neuronalen Netzen, die datengetrieben sind, erheblich, was die Aufgabe des Long-Tailed Recognition (LTR) zu einer herausfordernden Aufgabe macht. Bisherige LTR-Methoden trainieren Vision Transformers (ViTs) selten direkt mit langschwänzigen (LT) Daten, während die vorgefertigten Vortrain-Weight von ViTs häufig zu unfairen Vergleichen führen. In diesem Paper untersuchen wir systematisch die Leistungsfähigkeit von ViTs im LTR und stellen LiVT vor, ein Verfahren, das ViTs ausschließlich anhand von LT-Daten von Grund auf trainiert. Aufgrund der Beobachtung, dass ViTs Problemen im LTR stärker ausgesetzt sind, führen wir Masked Generative Pretraining (MGP) durch, um allgemeinere Merkmale zu erlernen. Mit umfangreichen und zuverlässigen Experimenten zeigen wir, dass MGP robuster ist als herkömmliche überwachte Ansätze. Zudem begegnet die Binary Cross Entropy (BCE)-Verlustfunktion, die bei ViTs eine herausragende Leistung zeigt, im Kontext des LTR erheblichen Schwierigkeiten. Wir schlagen daher die ausgewogene BCE (Bal-BCE) vor, die auf einer soliden theoretischen Grundlage beruht. Insbesondere leiten wir eine unverzerrte Erweiterung der Sigmoid-Funktion her und ergänzen zusätzliche Logit-Margen zur Implementierung. Unser Bal-BCE trägt zur schnellen Konvergenz von ViTs innerhalb nur weniger Epochen bei. Umfangreiche Experimente belegen, dass LiVT mit MGP und Bal-BCE ViTs erfolgreich ohne zusätzliche Daten trainiert und vergleichbare State-of-the-Art-Methoden signifikant übertrifft, beispielsweise erreicht unser ViT-B auf iNaturalist 2018 eine Top-1-Accuracy von 81,0 % ohne zusätzliche Optimierungen. Der Quellcode ist unter https://github.com/XuZhengzhuo/LiVT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp