HyperAIHyperAI
vor 11 Tagen

Semi-supervised Vision Transformers im großen Maßstab

Zhaowei Cai, Avinash Ravichandran, Paolo Favaro, Manchen Wang, Davide Modolo, Rahul Bhotika, Zhuowen Tu, Stefano Soatto
Semi-supervised Vision Transformers im großen Maßstab
Abstract

Wir untersuchen semi-supervised Learning (SSL) für Vision Transformers (ViT), ein bisher untererforschtes Thema, obwohl ViT-Architekturen in zahlreichen Anwendungen weit verbreitet sind. Um dieses Problem anzugehen, schlagen wir einen neuen SSL-Pipeline vor, bestehend aus einer ersten un-/selbstüberwachten Vortrainingsphase, gefolgt von einer überwachten Feinabstimmung und schließlich einer semi-supervised Feinabstimmung. In der semi-supervised Feinabstimmungsphase verwenden wir einen EMA-Teacher-Ansatz anstelle des weit verbreiteten FixMatch, da er stabiler ist und höhere Genauigkeit für semi-supervised Vision Transformers liefert. Zudem führen wir eine probabilistische Pseudomixup-Mechanismus ein, um unlabeled Samples und ihre Pseudolabels zu interpolieren, um eine verbesserte Regularisierung zu erreichen – eine wichtige Eigenschaft bei der Schulung von ViTs mit geringer induktiver Bias. Unser vorgeschlagenes Verfahren, Semi-ViT genannt, erreicht in semi-supervised Klassifizierungsaufgaben Leistungen, die mit oder über denen der CNN-Gegenstücke liegen. Semi-ViT profitiert zudem von den Skalierbarkeitsvorteilen von ViTs, die problemlos auf große Modelle mit steigender Genauigkeit erweitert werden können. So erreicht Semi-ViT-Huge eine beeindruckende Top-1-Accuracy von 80 % auf ImageNet unter Verwendung lediglich von 1 % der Labels – ein Ergebnis, das mit dem von Inception-v4 bei 100 % ImageNet-Labels vergleichbar ist.

Semi-supervised Vision Transformers im großen Maßstab | Neueste Forschungsarbeiten | HyperAI