HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 jours

Apprentissage imbriqué : L'illusion des architectures d'apprentissage profond

Ali Behrouz Meisam Razaviyayn Peiling Zhong Vahab Mirrokni

Apprentissage imbriqué : L'illusion des architectures d'apprentissage profond

Résumé

Au cours des dernières décennies, le développement d'architectures neuronales plus puissantes, conjointement à la conception d'algorithmes d'optimisation capables de les entraîner efficacement, a constitué le cœur des efforts de recherche visant à améliorer les capacités des modèles d'apprentissage automatique. Malgré les progrès récents, en particulier dans le domaine des modèles linguistiques (Language Models, LMs), de nombreuses questions fondamentales demeurent quant à la manière dont ces modèles pourraient apprendre de façon continue, mémoriser, s'améliorer automatiquement, et trouver des « solutions efficaces ». Dans cet article, nous proposons un nouveau paradigme d'apprentissage, appelé Nested Learning (NL), qui représente de manière cohérente un modèle à travers un ensemble de problèmes d'optimisation imbriqués, multilayers et/ou parallèles, chacun possédant son propre « flux de contexte ». Le NL révèle que les méthodes d'apprentissage profond actuelles apprennent à partir des données en comprimant leur propre flux de contexte, et explique la genèse de l'apprentissage in-context dans les grands modèles. Le NL suggère une voie nouvelle (une nouvelle dimension de l'apprentissage profond) pour concevoir des algorithmes d'apprentissage plus expressifs, dotés de plus de « niveaux », aboutissant à des capacités d'apprentissage in-context d'ordre supérieur. En plus de sa nature neuroscientifiquement plausible et mathématiquement transparente (white-box), nous soulignons son importance en présentant trois contributions majeures : (1) Optimiseurs profonds : À partir du cadre NL, nous montrons que des optimiseurs bien connus basés sur le gradient (tels que Adam, SGD avec momentum, etc.) sont en réalité des modules de mémoire associative visant à comprimer les gradients par descente de gradient. Partant de cette insight, nous proposons une série d'optimiseurs plus expressifs, intégrant une mémoire profonde et/ou des règles d'apprentissage plus puissantes ; (2) Titans auto-modifiables : En exploitant les insights du NL sur les algorithmes d'apprentissage, nous introduisons un nouveau modèle séquentiel capable d'apprendre à se modifier lui-même en apprenant son propre algorithme de mise à jour ; (3) Système de mémoire continue : Nous proposons une nouvelle formulation du système de mémoire, qui généralise le cadre traditionnel de la mémoire à long terme / mémoire à court terme. En combinant notre modèle séquentiel auto-modifiable avec ce système de mémoire continue, nous présentons un module d'apprentissage, nommé HoPE, qui montre des résultats prometteurs dans des tâches de modélisation linguistique, d'apprentissage continu et de raisonnement sur de longs contextes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage imbriqué : L'illusion des architectures d'apprentissage profond | Articles de recherche | HyperAI