HyperAIHyperAI
vor 17 Tagen

Verständnis der Robustheit bei Vision Transformers

Daquan Zhou, Zhiding Yu, Enze Xie, Chaowei Xiao, Anima Anandkumar, Jiashi Feng, Jose M. Alvarez
Verständnis der Robustheit bei Vision Transformers
Abstract

Neuere Studien zeigen, dass Vision-Transformer (ViTs) eine hohe Robustheit gegenüber verschiedenen Störungen aufweisen. Obwohl dieser Eigenschaft teilweise die Selbst-Attention-Mechanismen zugeschrieben werden, besteht weiterhin ein Mangel an systematischem Verständnis. In diesem Paper untersuchen wir die Rolle der Selbst-Attention bei der Lernung robuster Darstellungen. Unsere Studie wird durch die aufregenden Eigenschaften der sich entwickelnden visuellen Gruppierung in Vision-Transformern motiviert, die darauf hindeuten, dass die Selbst-Attention die Robustheit durch verbesserte mittlere Darstellungen fördern könnte. Wir schlagen außerdem eine Familie vollständig auf Attention basierender Netzwerke (FANs) vor, die diese Fähigkeit verstärken, indem sie eine attentionbasierte Kanalverarbeitungsarchitektur integrieren. Wir validieren das Design umfassend an verschiedenen hierarchischen Backbone-Strukturen. Unser Modell erreicht eine state-of-the-art Genauigkeit von 87,1 % und einen mCE-Wert von 35,8 % auf ImageNet-1k und ImageNet-C mit 76,8 M Parameter. Zudem demonstrieren wir state-of-the-art Genauigkeit und Robustheit in zwei nachgeschalteten Aufgaben: semantische Segmentierung und Objekterkennung. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/NVlabs/FAN.