vor 17 Tagen

Vor-Training leichter Vision Transformers auf kleinen Datensätzen mit minimal skalierten Bildern

Jen Hong Tan

Abstract

Kann ein leichtgewichtiger Vision Transformer (ViT) die Leistung von herkömmlichen Faltungsneuralen Netzen (CNNs), wie ResNet, auf kleinen Datensätzen mit geringen Bildauflösungen erreichen oder sogar übertreffen? Diese Studie zeigt, dass ein reiner ViT durch Vortrainierung tatsächlich eine überlegene Leistung erzielen kann, indem er eine maskierte Autoencoder-Technik mit minimaler Bildskalierung nutzt. Unsere Experimente auf den Datensätzen CIFAR-10 und CIFAR-100 umfassten ViT-Modelle mit weniger als 3,65 Millionen Parametern und einer Multiply-Accumulate-(MAC)-Anzahl unter 0,27 G, was sie als „leichtgewichtige“ Modelle klassifiziert. Im Gegensatz zu früheren Ansätzen erreicht unsere Methode den Stand der Technik unter vergleichbaren leichtgewichtigen Transformer-basierten Architekturen, ohne die Bilder aus CIFAR-10 und CIFAR-100 signifikant zu vergrößern. Dieser Erfolg unterstreicht die Effizienz unseres Modells nicht nur bei der Verarbeitung kleiner Datensätze, sondern auch bei der effektiven Bearbeitung von Bildern in einer Größenordnung nahe ihrer ursprünglichen Auflösung.