HyperAIHyperAI

Command Palette

Search for a command to run...

Vision Transformers mit Patch-Diversifizierung

Chengyue Gong Dilin Wang Meng Li Vikas Chandra Qiang Liu

Zusammenfassung

Der Vision Transformer hat eine vielversprechende Leistung bei anspruchsvollen Aufgaben des Computersehens gezeigt. Dennoch kann die direkte Training der Vision Transformers zu instabilen und suboptimalen Ergebnissen führen. In jüngeren Arbeiten wurde vorgeschlagen, die Leistung von Vision Transformers durch Modifikation der Transformer-Architektur zu verbessern, beispielsweise durch die Einbindung von Faltungsnetzwerken. Im Gegensatz dazu untersuchen wir einen orthogonalen Ansatz, um das Training von Vision Transformers zu stabilisieren, ohne die Netzwerkarchitektur zu verändern. Wir beobachten, dass die Instabilität des Trainings auf die erhebliche Ähnlichkeit zwischen den extrahierten Patch-Repräsentationen zurückzuführen ist. Genauer gesagt neigen die Self-Attention-Blöcke tiefer Vision Transformers dazu, verschiedene Patches in ähnliche latente Repräsentationen abzubilden, was zu Informationsverlust und Leistungsabfall führt. Um dieses Problem zu mildern, führen wir in dieser Arbeit neuartige Verlustfunktionen im Training von Vision Transformers ein, die explizit die Diversität zwischen den Patch-Repräsentationen fördern, um eine differenziertere Merkmalsextraktion zu ermöglichen. Wir zeigen empirisch, dass unsere vorgeschlagenen Techniken das Training stabilisieren und es ermöglichen, breitere und tiefere Vision Transformers zu trainieren. Zudem zeigen wir, dass die diversifizierten Merkmale die Leistung bei nachgeschalteten Aufgaben im Transferlernen erheblich verbessern. Für die semantische Segmentierung verbessern wir die Stand der Technik (SOTA) auf Cityscapes und ADE20k. Unser Code ist unter https://github.com/ChengyueGongR/PatchVisionTransformer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Vision Transformers mit Patch-Diversifizierung | Paper | HyperAI