HyperAIHyperAI
vor 17 Tagen

Vision Xformers: Effizientes Attention für die Bildklassifikation

Pranav Jeevan, Amit Sethi
Vision Xformers: Effizientes Attention für die Bildklassifikation
Abstract

Obwohl Transformers zu den bevorzugten neuronalen Architekturen für die natürliche Sprachverarbeitung geworden sind, benötigen sie gegenüber Faltungsneuralen Netzen (CNNs) für die Computer Vision um Größenordnungen mehr Trainingsdaten, GPU-Speicher und Berechnungen, um konkurrenzfähig zu sein. Der Aufmerksamkeitsmechanismus von Transformers skaliert quadratisch mit der Länge der Eingabefolge, wobei abgewickelte Bilder lange Folgen ergeben. Zudem fehlt Transformers eine induktive Voreingenommenheit, die für Bilder angemessen ist. Wir haben drei Modifikationen an Vision-Transformer-(ViT-)Architekturen getestet, um diese Schwächen zu beheben. Erstens verringern wir die quadratische Engstelle durch den Einsatz linearer Aufmerksamkeitsmechanismen, sogenannter X-Former (wobei X für {Performer, Linformer, Nyströmformer} steht), wodurch Vision-X-Former (ViXs) entstehen. Dies führte zu einer bis zu siebenfachen Reduktion des GPU-Speicherverbrauchs. Außerdem verglichen wir ihre Leistung mit FNet und Multi-Layer-Perceptron-Mixern, was die Reduktion des GPU-Speicherverbrauchs weiter verstärkte. Zweitens integrierten wir eine induktive Voreingenommenheit für Bilder, indem wir die anfängliche lineare Einbettungsschicht durch Faltungsnetze in ViX ersetzten, was die Klassifizierungsgenauigkeit signifikant steigerte, ohne die Modellgröße zu erhöhen. Drittens ersetzten wir die lernbaren 1D-Positions-Einbettungen in ViT durch Rotations-Positions-Einbettungen (Rotary Position Embedding, RoPE), was die Klassifizierungsgenauigkeit bei gleicher Modellgröße erhöhte. Wir sind überzeugt, dass die Einbindung solcher Verbesserungen die Democratisierung von Transformers fördern wird, indem sie diese für Nutzer mit begrenzten Daten- und Rechenressourcen zugänglich machen.

Vision Xformers: Effizientes Attention für die Bildklassifikation | Neueste Forschungsarbeiten | HyperAI