HyperAI

Au cours des dernières décennies, le développement d'architectures neuronales plus puissantes, conjointement à la conception d'algorithmes d'optimisation capables de les entraîner efficacement, a constitué le cœur des efforts de recherche visant à améliorer les capacités des modèles d'apprentissage automatique. Malgré les progrès récents, en particulier dans le domaine des modèles linguistiques (Language Models, LMs), de nombreuses questions fondamentales demeurent quant à la manière dont ces modèles pourraient apprendre de façon continue, mémoriser, s'améliorer automatiquement, et trouver des « solutions efficaces ». Dans cet article, nous proposons un nouveau paradigme d'apprentissage, appelé Nested Learning (NL), qui représente de manière cohérente un modèle à travers un ensemble de problèmes d'optimisation imbriqués, multilayers et/ou parallèles, chacun possédant son propre « flux de contexte ». Le NL révèle que les méthodes d'apprentissage profond actuelles apprennent à partir des données en comprimant leur propre flux de contexte, et explique la genèse de l'apprentissage in-context dans les grands modèles. Le NL suggère une voie nouvelle (une nouvelle dimension de l'apprentissage profond) pour concevoir des algorithmes d'apprentissage plus expressifs, dotés de plus de « niveaux », aboutissant à des capacités d'apprentissage in-context d'ordre supérieur. En plus de sa nature neuroscientifiquement plausible et mathématiquement transparente (white-box), nous soulignons son importance en présentant trois contributions majeures : (1) Optimiseurs profonds : À partir du cadre NL, nous montrons que des optimiseurs bien connus basés sur le gradient (tels que Adam, SGD avec momentum, etc.) sont en réalité des modules de mémoire associative visant à comprimer les gradients par descente de gradient. Partant de cette insight, nous proposons une série d'optimiseurs plus expressifs, intégrant une mémoire profonde et/ou des règles d'apprentissage plus puissantes ; (2) Titans auto-modifiables : En exploitant les insights du NL sur les algorithmes d'apprentissage, nous introduisons un nouveau modèle séquentiel capable d'apprendre à se modifier lui-même en apprenant son propre algorithme de mise à jour ; (3) Système de mémoire continue : Nous proposons une nouvelle formulation du système de mémoire, qui généralise le cadre traditionnel de la mémoire à long terme / mémoire à court terme. En combinant notre modèle séquentiel auto-modifiable avec ce système de mémoire continue, nous présentons un module d'apprentissage, nommé HoPE, qui montre des résultats prometteurs dans des tâches de modélisation linguistique, d'apprentissage continu et de raisonnement sur de longs contextes.

Apprentissage imbriqué : L'illusion des architectures d'apprentissage profond

Ali Behrouz Meisam Razaviyayn Peiling Zhong Vahab Mirrokni

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Apprentissage imbriqué : L'illusion des architectures d'apprentissage profond

Ali Behrouz Meisam Razaviyayn Peiling Zhong Vahab Mirrokni

Résumé

Construire l'IA avec l'IA

Hyper Newsletters