il y a 2 mois

Échapper au paradigme des grandes données avec des transformateurs compacts

Ali Hassani; Steven Walton; Nikhil Shah; Abulikemu Abuduweili; Jiachen Li; Humphrey Shi

Résumé

Avec l'essor des Transformers comme norme pour le traitement du langage et leurs avancées dans la vision par ordinateur, il y a eu une croissance correspondante de la taille des paramètres et de la quantité de données d'entraînement. De nombreux chercheurs estiment désormais que, en raison de cette tendance, les Transformers ne sont pas adaptés aux petits ensembles de données. Cette évolution soulève des préoccupations telles que : la disponibilité limitée de données dans certains domaines scientifiques et l'exclusion des chercheurs disposant de ressources limitées des travaux dans ce domaine. Dans cet article, nous présentons une approche pour l'apprentissage à petite échelle en introduisant les Transformers Compacts (Compact Transformers). Nous montrons pour la première fois qu'avec une taille appropriée et une tokenisation convolutive, les Transformers peuvent éviter le surapprentissage et surpasser les CNNs de pointe sur des petits ensembles de données. Nos modèles sont flexibles en termes de taille, pouvant comporter aussi peu que 0,28 million de paramètres tout en obtenant des résultats compétitifs. Notre meilleur modèle atteint 98% de précision lorsqu'il est entraîné à partir de zéro sur CIFAR-10 avec seulement 3,7 millions de paramètres, ce qui représente une amélioration significative en efficacité des données par rapport aux modèles Transformer précédents, étant plus de 10 fois plus petit que d'autres Transformers et représentant 15% de la taille du ResNet50 tout en offrant des performances similaires. Les CCT surpassent également nombre d'approches modernes basées sur les CNNs et même certaines approches récentes basées sur le NAS. De plus, nous obtenons un nouveau résultat SOTA (State Of The Art) sur Flowers-102 avec une précision top-1 de 99,76%, et nous améliorons la ligne de base existante sur ImageNet (82,71% de précision avec 29% moins de paramètres que ViT), ainsi que sur les tâches NLP (Natural Language Processing). Notre conception simple et compacte pour les Transformers les rend plus accessibles à l'étude pour ceux qui disposent de ressources informatiques limitées et/ou travaillent avec des petits ensembles de données, tout en prolongeant les efforts de recherche existants dans le domaine des Transformers efficaces en données. Notre code source et nos modèles pré-entraînés sont disponibles au public sur https://github.com/SHI-Labs/Compact-Transformers.