Pré-entraînement de Vision Transformers légers sur de petits jeux de données avec des images à échelle minimale

Peut-elle une Vision Transformer (ViT) légère égaler ou surpasser les performances des réseaux de neurones convolutifs (CNN) comme ResNet sur des petits jeux de données avec des résolutions d’image faibles ? Ce rapport démontre qu’une ViT pure peut effectivement atteindre des performances supérieures grâce à un pré-entraînement utilisant une technique d’auto-encodeur masqué, avec une mise à l’échelle minimale des images. Nos expériences menées sur les jeux de données CIFAR-10 et CIFAR-100 impliquent des modèles ViT comptant moins de 3,65 millions de paramètres et une charge de calcul en multiplication-accumulation (MAC) inférieure à 0,27 G, les qualifiant ainsi de modèles « légers ». Contrairement aux approches antérieures, notre méthode atteint des performances de pointe parmi les architectures basées sur les transformateurs légères, sans nécessiter une augmentation significative de la taille des images provenant de CIFAR-10 et CIFAR-100. Ce résultat souligne l’efficacité de notre modèle, tant dans la gestion des petits jeux de données que dans le traitement efficace d’images proches de leur échelle d’origine.