HyperAIHyperAI

Command Palette

Search for a command to run...

Échapper au paradigme des grandes données avec des transformateurs compacts

Ali Hassani Steven Walton Nikhil Shah Abulikemu Abuduweili Jiachen Li Humphrey Shi

Résumé

Avec l'essor des Transformers comme norme pour le traitement du langage et leurs avancées dans la vision par ordinateur, il y a eu une croissance correspondante de la taille des paramètres et de la quantité de données d'entraînement. De nombreux chercheurs estiment désormais que, en raison de cette tendance, les Transformers ne sont pas adaptés aux petits ensembles de données. Cette évolution soulève des préoccupations telles que : la disponibilité limitée de données dans certains domaines scientifiques et l'exclusion des chercheurs disposant de ressources limitées des travaux dans ce domaine. Dans cet article, nous présentons une approche pour l'apprentissage à petite échelle en introduisant les Transformers Compacts (Compact Transformers). Nous montrons pour la première fois qu'avec une taille appropriée et une tokenisation convolutive, les Transformers peuvent éviter le surapprentissage et surpasser les CNNs de pointe sur des petits ensembles de données. Nos modèles sont flexibles en termes de taille, pouvant comporter aussi peu que 0,28 million de paramètres tout en obtenant des résultats compétitifs. Notre meilleur modèle atteint 98% de précision lorsqu'il est entraîné à partir de zéro sur CIFAR-10 avec seulement 3,7 millions de paramètres, ce qui représente une amélioration significative en efficacité des données par rapport aux modèles Transformer précédents, étant plus de 10 fois plus petit que d'autres Transformers et représentant 15% de la taille du ResNet50 tout en offrant des performances similaires. Les CCT surpassent également nombre d'approches modernes basées sur les CNNs et même certaines approches récentes basées sur le NAS. De plus, nous obtenons un nouveau résultat SOTA (State Of The Art) sur Flowers-102 avec une précision top-1 de 99,76%, et nous améliorons la ligne de base existante sur ImageNet (82,71% de précision avec 29% moins de paramètres que ViT), ainsi que sur les tâches NLP (Natural Language Processing). Notre conception simple et compacte pour les Transformers les rend plus accessibles à l'étude pour ceux qui disposent de ressources informatiques limitées et/ou travaillent avec des petits ensembles de données, tout en prolongeant les efforts de recherche existants dans le domaine des Transformers efficaces en données. Notre code source et nos modèles pré-entraînés sont disponibles au public sur https://github.com/SHI-Labs/Compact-Transformers.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp