vor 17 Tagen

Vision Transformers mit Patch-Diversifizierung

Chengyue Gong, Dilin Wang, Meng Li, Vikas Chandra, Qiang Liu

Abstract

Der Vision Transformer hat eine vielversprechende Leistung bei anspruchsvollen Aufgaben des Computersehens gezeigt. Dennoch kann die direkte Training der Vision Transformers zu instabilen und suboptimalen Ergebnissen führen. In jüngeren Arbeiten wurde vorgeschlagen, die Leistung von Vision Transformers durch Modifikation der Transformer-Architektur zu verbessern, beispielsweise durch die Einbindung von Faltungsnetzwerken. Im Gegensatz dazu untersuchen wir einen orthogonalen Ansatz, um das Training von Vision Transformers zu stabilisieren, ohne die Netzwerkarchitektur zu verändern. Wir beobachten, dass die Instabilität des Trainings auf die erhebliche Ähnlichkeit zwischen den extrahierten Patch-Repräsentationen zurückzuführen ist. Genauer gesagt neigen die Self-Attention-Blöcke tiefer Vision Transformers dazu, verschiedene Patches in ähnliche latente Repräsentationen abzubilden, was zu Informationsverlust und Leistungsabfall führt. Um dieses Problem zu mildern, führen wir in dieser Arbeit neuartige Verlustfunktionen im Training von Vision Transformers ein, die explizit die Diversität zwischen den Patch-Repräsentationen fördern, um eine differenziertere Merkmalsextraktion zu ermöglichen. Wir zeigen empirisch, dass unsere vorgeschlagenen Techniken das Training stabilisieren und es ermöglichen, breitere und tiefere Vision Transformers zu trainieren. Zudem zeigen wir, dass die diversifizierten Merkmale die Leistung bei nachgeschalteten Aufgaben im Transferlernen erheblich verbessern. Für die semantische Segmentierung verbessern wir die Stand der Technik (SOTA) auf Cityscapes und ADE20k. Unser Code ist unter https://github.com/ChengyueGongR/PatchVisionTransformer verfügbar.