HyperAIHyperAI
vor 11 Tagen

Sind Transformers robuster als CNNs?

Yutong Bai, Jieru Mei, Alan Yuille, Cihang Xie
Sind Transformers robuster als CNNs?
Abstract

Der Transformer hat sich als ein leistungsfähiges Werkzeug für die visuelle Erkennung etabliert. Neben der nachweislich konkurrenzfähigen Leistung auf einer Vielzahl visueller Benchmarks wird in jüngsten Arbeiten zudem behauptet, dass Transformers gegenüber konventionellen neuronalen Netzen mit Faltung (CNNs) erheblich robuster seien. Dennoch stellen wir überraschenderweise fest, dass diese Schlussfolgerungen auf unfairen experimentellen Vergleichen beruhen, bei denen Transformers und CNNs auf unterschiedlichen Skalen evaluiert und mit unterschiedlichen Trainingsframeworks betrieben werden. In dieser Arbeit zielen wir darauf ab, die ersten fairen und detaillierten Vergleiche zwischen Transformers und CNNs vorzulegen, wobei der Fokus auf der Bewertung der Robustheit liegt.Unter einer einheitlichen Trainings-Setup stellen wir zunächst die bisherige Annahme in Frage, dass Transformers bei der Messung der adversarialen Robustheit CNNs überlegen sind. Noch überraschender ist, dass wir feststellen, dass CNNs durchaus so robust wie Transformers gegenüber adversarialen Angriffen sein können, wenn sie die entsprechenden Training-Rezepte der Transformers übernehmen. Im Hinblick auf die Generalisierbarkeit auf außerhalb der Verteilung liegende (out-of-distribution) Daten zeigen wir, dass eine Vortrainingsphase auf (externen) großskaligen Datensätzen kein grundlegendes Erfordernis ist, damit Transformers eine bessere Leistung als CNNs erzielen. Zudem deuten unsere Ablationsstudien darauf hin, dass diese stärkere Generalisierbarkeit weitgehend durch die architektonischen Eigenschaften der Transformer – insbesondere deren Selbst-Attention-Struktur – bedingt ist und nicht durch andere Trainingsparameter verursacht wird.Wir hoffen, dass diese Arbeit der Forschungsgemeinschaft hilft, die Robustheit von Transformers und CNNs besser zu verstehen und angemessen zu benchmarken. Der Quellcode und die Modelle sind öffentlich verfügbar unter: https://github.com/ytongbai/ViTs-vs-CNNs.

Sind Transformers robuster als CNNs? | Neueste Forschungsarbeiten | HyperAI