HyperAIHyperAI

Command Palette

Search for a command to run...

Vor-Training leichter Vision Transformers auf kleinen Datensätzen mit minimal skalierten Bildern

Jen Hong Tan

Zusammenfassung

Kann ein leichtgewichtiger Vision Transformer (ViT) die Leistung von herkömmlichen Faltungsneuralen Netzen (CNNs), wie ResNet, auf kleinen Datensätzen mit geringen Bildauflösungen erreichen oder sogar übertreffen? Diese Studie zeigt, dass ein reiner ViT durch Vortrainierung tatsächlich eine überlegene Leistung erzielen kann, indem er eine maskierte Autoencoder-Technik mit minimaler Bildskalierung nutzt. Unsere Experimente auf den Datensätzen CIFAR-10 und CIFAR-100 umfassten ViT-Modelle mit weniger als 3,65 Millionen Parametern und einer Multiply-Accumulate-(MAC)-Anzahl unter 0,27 G, was sie als „leichtgewichtige“ Modelle klassifiziert. Im Gegensatz zu früheren Ansätzen erreicht unsere Methode den Stand der Technik unter vergleichbaren leichtgewichtigen Transformer-basierten Architekturen, ohne die Bilder aus CIFAR-10 und CIFAR-100 signifikant zu vergrößern. Dieser Erfolg unterstreicht die Effizienz unseres Modells nicht nur bei der Verarbeitung kleiner Datensätze, sondern auch bei der effektiven Bearbeitung von Bildern in einer Größenordnung nahe ihrer ursprünglichen Auflösung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp