HyperAIHyperAI

Command Palette

Search for a command to run...

Verständnis der Robustheit bei Vision Transformers

Daquan Zhou Zhiding Yu Enze Xie Chaowei Xiao Anima Anandkumar Jiashi Feng Jose M. Alvarez

Zusammenfassung

Neuere Studien zeigen, dass Vision-Transformer (ViTs) eine hohe Robustheit gegenüber verschiedenen Störungen aufweisen. Obwohl dieser Eigenschaft teilweise die Selbst-Attention-Mechanismen zugeschrieben werden, besteht weiterhin ein Mangel an systematischem Verständnis. In diesem Paper untersuchen wir die Rolle der Selbst-Attention bei der Lernung robuster Darstellungen. Unsere Studie wird durch die aufregenden Eigenschaften der sich entwickelnden visuellen Gruppierung in Vision-Transformern motiviert, die darauf hindeuten, dass die Selbst-Attention die Robustheit durch verbesserte mittlere Darstellungen fördern könnte. Wir schlagen außerdem eine Familie vollständig auf Attention basierender Netzwerke (FANs) vor, die diese Fähigkeit verstärken, indem sie eine attentionbasierte Kanalverarbeitungsarchitektur integrieren. Wir validieren das Design umfassend an verschiedenen hierarchischen Backbone-Strukturen. Unser Modell erreicht eine state-of-the-art Genauigkeit von 87,1 % und einen mCE-Wert von 35,8 % auf ImageNet-1k und ImageNet-C mit 76,8 M Parameter. Zudem demonstrieren wir state-of-the-art Genauigkeit und Robustheit in zwei nachgeschalteten Aufgaben: semantische Segmentierung und Objekterkennung. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/NVlabs/FAN.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp