HyperAIHyperAI

Command Palette

Search for a command to run...

Pré-entraînement de Vision Transformers légers sur de petits jeux de données avec des images à échelle minimale

Jen Hong Tan

Résumé

Peut-elle une Vision Transformer (ViT) légère égaler ou surpasser les performances des réseaux de neurones convolutifs (CNN) comme ResNet sur des petits jeux de données avec des résolutions d’image faibles ? Ce rapport démontre qu’une ViT pure peut effectivement atteindre des performances supérieures grâce à un pré-entraînement utilisant une technique d’auto-encodeur masqué, avec une mise à l’échelle minimale des images. Nos expériences menées sur les jeux de données CIFAR-10 et CIFAR-100 impliquent des modèles ViT comptant moins de 3,65 millions de paramètres et une charge de calcul en multiplication-accumulation (MAC) inférieure à 0,27 G, les qualifiant ainsi de modèles « légers ». Contrairement aux approches antérieures, notre méthode atteint des performances de pointe parmi les architectures basées sur les transformateurs légères, sans nécessiter une augmentation significative de la taille des images provenant de CIFAR-10 et CIFAR-100. Ce résultat souligne l’efficacité de notre modèle, tant dans la gestion des petits jeux de données que dans le traitement efficace d’images proches de leur échelle d’origine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp