HyperAIHyperAI

Command Palette

Search for a command to run...

Ein Bild ist wert 16x16 Wörter: Transformers für die Bilderkennung im großen Maßstab

Zusammenfassung

Während die Transformer-Architektur zum de-facto-Standard für Aufgaben im Bereich der natürlichen Sprachverarbeitung geworden ist, bleiben ihre Anwendungen im Bereich des maschinellen Sehens bisher begrenzt. In der Bildverarbeitung wird Aufmerksamkeit entweder in Kombination mit konvolutionellen Netzwerken eingesetzt oder verwendet, um bestimmte Komponenten konvolutioneller Netzwerke zu ersetzen, während deren Gesamtstruktur beibehalten wird. Wir zeigen, dass diese Abhängigkeit von CNNs nicht notwendig ist und dass ein reiner Transformer, der direkt auf Folgen von Bildpatches angewendet wird, bei Bildklassifizierungsaufgaben hervorragende Ergebnisse erzielen kann. Bei Vortrainierung auf großen Datensätzen und Übertragung auf mehrere mittelgroße oder kleine Benchmarks für Bilderkennung (ImageNet, CIFAR-100, VTAB usw.) erreicht der Vision Transformer (ViT) im Vergleich zu aktuellen state-of-the-art konvolutionellen Netzwerken hervorragende Leistungen, wobei er erheblich weniger rechnerische Ressourcen für das Training benötigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp