HyperAIHyperAI
vor 17 Tagen

Diskrete Darstellungen stärken die Robustheit von Vision Transformers

Chengzhi Mao, Lu Jiang, Mostafa Dehghani, Carl Vondrick, Rahul Sukthankar, Irfan Essa
Diskrete Darstellungen stärken die Robustheit von Vision Transformers
Abstract

Der Vision Transformer (ViT) etabliert sich als state-of-the-art-Architektur für die Bilderkennung. Obwohl neuere Studien nahelegen, dass ViTs robuster sind als ihre konvolutionalen Gegenstücke, zeigen unsere Experimente, dass ViTs, die auf ImageNet trainiert wurden, übermäßig auf lokale Texturen angewiesen sind und nicht ausreichend Informationen über Formen nutzen. Dadurch erweisen sich ViTs als weniger gut geeignet, um auf aus der Verteilung stammende, realwelttypische Daten zu generalisieren. Um diese Schwäche zu beheben, präsentieren wir eine einfache und effektive Modifikation der Eingabeschicht von ViT, indem wir diskrete Tokens hinzufügen, die durch einen vektorquantisierten Encoder erzeugt werden. Im Gegensatz zu den herkömmlichen kontinuierlichen Pixel-Tokens sind diskrete Tokens invariant gegenüber kleinen Störungen und enthalten individuell weniger Information, was dazu führt, dass ViTs lernen, globale, transformationsinvariante Merkmale zu erfassen. Experimentelle Ergebnisse zeigen, dass die Hinzufügung einer diskreten Darstellung bei vier Architekturvarianten die Robustheit von ViT auf bis zu 12 % gegenüber sieben Benchmark-Tests zur Robustheit auf ImageNet steigert, ohne die Leistung auf ImageNet zu beeinträchtigen.

Diskrete Darstellungen stärken die Robustheit von Vision Transformers | Neueste Forschungsarbeiten | HyperAI