HyperAIHyperAI

Command Palette

Search for a command to run...

Diskrete Darstellungen stärken die Robustheit von Vision Transformers

Chengzhi Mao Lu Jiang Mostafa Dehghani Carl Vondrick Rahul Sukthankar Irfan Essa

Zusammenfassung

Der Vision Transformer (ViT) etabliert sich als state-of-the-art-Architektur für die Bilderkennung. Obwohl neuere Studien nahelegen, dass ViTs robuster sind als ihre konvolutionalen Gegenstücke, zeigen unsere Experimente, dass ViTs, die auf ImageNet trainiert wurden, übermäßig auf lokale Texturen angewiesen sind und nicht ausreichend Informationen über Formen nutzen. Dadurch erweisen sich ViTs als weniger gut geeignet, um auf aus der Verteilung stammende, realwelttypische Daten zu generalisieren. Um diese Schwäche zu beheben, präsentieren wir eine einfache und effektive Modifikation der Eingabeschicht von ViT, indem wir diskrete Tokens hinzufügen, die durch einen vektorquantisierten Encoder erzeugt werden. Im Gegensatz zu den herkömmlichen kontinuierlichen Pixel-Tokens sind diskrete Tokens invariant gegenüber kleinen Störungen und enthalten individuell weniger Information, was dazu führt, dass ViTs lernen, globale, transformationsinvariante Merkmale zu erfassen. Experimentelle Ergebnisse zeigen, dass die Hinzufügung einer diskreten Darstellung bei vier Architekturvarianten die Robustheit von ViT auf bis zu 12 % gegenüber sieben Benchmark-Tests zur Robustheit auf ImageNet steigert, ohne die Leistung auf ImageNet zu beeinträchtigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp