HyperAIHyperAI

Command Palette

Search for a command to run...

Masked Image Residual Learning für das Skalieren tiefer Vision Transformers

Guoxi Huang Hongtao Fu Adrian G. Bors

Zusammenfassung

Tiefere Vision Transformers (ViTs) sind schwieriger zu trainieren. Wir identifizieren ein Degenerationsproblem in den tieferen Schichten von ViT, wenn zur Vortrainierung Masked Image Modeling (MIM) verwendet wird. Um das Training tieferer ViTs zu erleichtern, stellen wir einen selbstüberwachten Lernrahmen namens Masked Image Residual Learning (MIRL) vor, der das Degenerationsproblem erheblich mildert und die Skalierung von ViT entlang der Tiefe somit zu einer vielversprechenden Strategie für die Leistungssteigerung macht. Wir reformulieren das Vortrainierungsziel für die tieferen Schichten von ViT als das Lernen der Wiederherstellung des Restwerts des maskierten Bildes. Wir liefern umfangreiche empirische Belege dafür, dass tiefere ViTs mit MIRL effektiv optimiert werden können und durch erhöhte Tiefe leicht eine höhere Genauigkeit erzielen. Bei vergleichbarer Berechnungskomplexität wie bei ViT-Base und ViT-Large realisieren wir ViTs, die 4,5-mal bzw. 2-mal tiefer sind, und bezeichnen sie als ViT-S-54 und ViT-B-48. Der tiefere ViT-S-54, der nur ein Drittel der Kosten von ViT-Large verursacht, erreicht eine Leistung auf gleichem Niveau wie ViT-Large. ViT-B-48 erzielt eine Top-1-Genauigkeit von 86,2 % auf ImageNet. Auf der einen Seite zeigen tiefere ViTs, die mit MIRL vortrainiert wurden, hervorragende Generalisierungsfähigkeit bei nachgeschalteten Aufgaben wie Objekterkennung und semantischer Segmentierung. Auf der anderen Seite demonstriert MIRL eine hohe Effizienz beim Vortrainieren: Mit weniger Vortrainingszeit erzielt MIRL Leistungen, die mit anderen Ansätzen konkurrieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Masked Image Residual Learning für das Skalieren tiefer Vision Transformers | Paper | HyperAI