HyperAIHyperAI

Command Palette

Search for a command to run...

Drei Dinge, die jeder über Vision Transformers wissen sollte

Hugo Touvron Matthieu Cord Alaaeldin El-Nouby Jakob Verbeek Hervé Jégou

Zusammenfassung

Nach ihrem initialen Erfolg in der Verarbeitung natürlicher Sprache haben Transformer-Architekturen rasch an Bedeutung in der Computer Vision gewonnen und liefern derzeit state-of-the-art Ergebnisse für Aufgaben wie Bildklassifizierung, Objektdetektion, Segmentierung und Videobearbeitung. Wir präsentieren drei Erkenntnisse basierend auf einfach umzusetzenden und leicht anwendbaren Varianten von Vision Transformers. (1) Die Residual-Schichten von Vision Transformers, die üblicherweise sequenziell verarbeitet werden, können teilweise effizient parallel verarbeitet werden, ohne die Genauigkeit signifikant zu beeinträchtigen. (2) Es genügt, die Gewichte der Aufmerksamkeits-Schichten feinabzustimmen, um Vision Transformers an eine höhere Auflösung sowie an andere Klassifizierungsaufgaben anzupassen. Dies spart Rechenleistung, reduziert den Spitzenmemoryverbrauch während des Feinabstimmens und ermöglicht die gemeinsame Nutzung des Großteils der Gewichte über verschiedene Aufgaben hinweg. (3) Die Hinzufügung von MLP-basierten Patch-Vorverarbeitungsschichten verbessert das Bert-ähnliche selbstüberwachte Lernen, das auf Patch-Masking basiert. Wir bewerten die Auswirkungen dieser Designentscheidungen anhand des ImageNet-1k-Datensatzes und bestätigen unsere Ergebnisse anhand der ImageNet-v2-Testmenge. Die Transferleistung wird an sechs kleineren Datensätzen gemessen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Drei Dinge, die jeder über Vision Transformers wissen sollte | Paper | HyperAI