HyperAI
il y a 10 jours

Les Transformers basés sur l'énergie sont des apprenants et des penseurs évolutifs.

Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, Peixuan Han, Hyeonjeong Ha, Aman Chadha, Yilun Du, Heng Ji, Jundong Li, Tariq Iqbal
Les Transformers basés sur l'énergie sont des apprenants et des penseurs évolutifs.
Résumé

Les techniques de calcul en temps d'inférence, analogues au raisonnement systémique de type 2 chez l'humain, ont récemment gagné en popularité pour améliorer les performances des modèles. Cependant, la plupart des approches existantes souffrent de plusieurs limitations : elles sont spécifiques à un mode (par exemple, ne fonctionnant que dans le texte), spécifiques à un problème (par exemple, dans des domaines vérifiables comme les mathématiques et la programmation), ou nécessitent une supervision/formation supplémentaire en plus de l'apprentissage non supervisé préalable (par exemple, des vérificateurs ou des récompenses vérifiables). Dans cet article, nous nous posons la question suivante : « Est-il possible de généraliser ces approches de raisonnement systémique de type 2 et de développer des modèles qui apprennent à penser uniquement par apprentissage non supervisé ? » De manière intéressante, nous trouvons que la réponse est oui, en apprenant à vérifier explicitement la compatibilité entre les entrées et les prédictions candidates, puis en reformulant les problèmes de prédiction sous forme d'optimisation par rapport à ce vérificateur. Plus précisément, nous entraînons des Transformers Basés sur l'Énergie (EBTs) – une nouvelle classe de Modèles Basés sur l'Énergie (EBMs) – pour attribuer une valeur d'énergie à chaque paire entrée-prédiction candidate, permettant ainsi des prédictions par minimisation d'énergie basée sur le gradient jusqu'à convergence. Nous constatons que les EBTs s'adaptent plus rapidement que l'approche dominante Transformer++ pendant l'entraînement, atteignant un taux d'évolution pouvant être jusqu'à 35% plus élevé en termes de données, taille de lot, paramètres, FLOPs et profondeur. Pendant l'inférence, les EBTs améliorent les performances avec le raisonnement systémique de type 2 jusqu'à 29% plus efficacement que le Transformer++ pour les tâches linguistiques, et surpassent les Transformers Diffusion pour le débruitage d'images tout en utilisant moins de passes avant. De plus, nous constatons que les EBTs obtiennent de meilleurs résultats que les modèles existants sur la plupart des tâches downstream malgré une performance égale ou inférieure lors du préapprentissage, suggérant que les EBTs généralisent mieux que les approches actuelles. Par conséquent, les EBTs représentent un nouveau paradigme prometteur pour évoluer tant dans les capacités d'apprentissage que dans celles de raisonnement des modèles.