Zu robusteren Vision Transformer

Neuere Fortschritte bei Vision Transformers (ViT) und ihren verbesserten Varianten haben gezeigt, dass selbst-Attention-basierte Netzwerke in den meisten visuellen Aufgaben traditionelle convolutionale neuronale Netze (CNNs) übertrifft. Allerdings konzentrieren sich bestehende ViTs hauptsächlich auf die Standardgenauigkeit und die Berechnungskosten, während die inhärente Auswirkung auf die Robustheit und Generalisierbarkeit bisher wenig untersucht wurde. In dieser Arbeit führen wir eine systematische Evaluation der Komponenten von ViTs durch, um deren Einfluss auf die Robustheit gegenüber adversarialen Beispielen, allgemeinen Störungen und Verteilungsverschiebungen zu analysieren. Wir stellen fest, dass bestimmte Komponenten die Robustheit sogar beeinträchtigen können. Durch die Verwendung und Kombination robuster Komponenten als Bausteine für ViTs entwickeln wir den Robust Vision Transformer (RVT), einen neuen Vision Transformer mit herausragender Leistung und starker Robustheit. Darüber hinaus schlagen wir zwei neue plug-and-play-Techniken vor: position-aware attention scaling und patch-wise augmentation, die wir zur Verbesserung unseres RVT nutzen und als RVT abkürzen. Die experimentellen Ergebnisse auf ImageNet und sechs Robustheitsbenchmarks belegen die überlegene Robustheit und Generalisierungsfähigkeit von RVT im Vergleich zu früheren ViTs und state-of-the-art CNNs. Zudem erreicht RVT-S die Top-1-Platzierung auf mehreren Robustheits-Leaderboards, darunter ImageNet-C und ImageNet-Sketch. Der Quellcode wird unter \url{https://github.com/alibaba/easyrobust} verfügbar sein.