vor 11 Tagen

Masked Image Residual Learning für das Skalieren tiefer Vision Transformers

Guoxi Huang, Hongtao Fu, Adrian G. Bors

Abstract

Tiefere Vision Transformers (ViTs) sind schwieriger zu trainieren. Wir identifizieren ein Degenerationsproblem in den tieferen Schichten von ViT, wenn zur Vortrainierung Masked Image Modeling (MIM) verwendet wird. Um das Training tieferer ViTs zu erleichtern, stellen wir einen selbstüberwachten Lernrahmen namens Masked Image Residual Learning (MIRL) vor, der das Degenerationsproblem erheblich mildert und die Skalierung von ViT entlang der Tiefe somit zu einer vielversprechenden Strategie für die Leistungssteigerung macht. Wir reformulieren das Vortrainierungsziel für die tieferen Schichten von ViT als das Lernen der Wiederherstellung des Restwerts des maskierten Bildes. Wir liefern umfangreiche empirische Belege dafür, dass tiefere ViTs mit MIRL effektiv optimiert werden können und durch erhöhte Tiefe leicht eine höhere Genauigkeit erzielen. Bei vergleichbarer Berechnungskomplexität wie bei ViT-Base und ViT-Large realisieren wir ViTs, die 4,5-mal bzw. 2-mal tiefer sind, und bezeichnen sie als ViT-S-54 und ViT-B-48. Der tiefere ViT-S-54, der nur ein Drittel der Kosten von ViT-Large verursacht, erreicht eine Leistung auf gleichem Niveau wie ViT-Large. ViT-B-48 erzielt eine Top-1-Genauigkeit von 86,2 % auf ImageNet. Auf der einen Seite zeigen tiefere ViTs, die mit MIRL vortrainiert wurden, hervorragende Generalisierungsfähigkeit bei nachgeschalteten Aufgaben wie Objekterkennung und semantischer Segmentierung. Auf der anderen Seite demonstriert MIRL eine hohe Effizienz beim Vortrainieren: Mit weniger Vortrainingszeit erzielt MIRL Leistungen, die mit anderen Ansätzen konkurrieren.