Command Palette
Search for a command to run...
UltraMemV2 : les réseaux mémoire évoluant à 120 milliards de paramètres avec une apprentissage de contexte long supérieur

Résumé
Bien que les modèles à Mélanges d’Experts (MoE) atteignent une efficacité remarquable en activant uniquement des sous-ensembles de paramètres, ils souffrent de coûts élevés d’accès mémoire lors de l’inférence. Les architectures à mémoire offrent une alternative attrayante, avec un nombre très réduit d’accès mémoire, mais les tentatives antérieures, telles que UltraMem, n’ont atteint que la performance des modèles MoE à 2 experts, s’écartant largement des configurations de pointe à 8 experts. Nous présentons UltraMemV2, une architecture redessinée à mémoire qui comble cette lacune de performance. Notre approche introduit cinq améliorations clés : intégration des couches mémoire dans chaque bloc Transformer, simplification de l’expansion des valeurs par projections linéaires simples, adoption du traitement des valeurs basé sur les FFN (Feed-Forward Networks) issu de PEER, mise en œuvre d’une initialisation des paramètres rigoureuse, et rééquilibrage des rapports de calcul entre mémoire et FFN. Grâce à une évaluation approfondie, nous démontrons qu’UltraMemV2 atteint une performance équivalente à celle des modèles MoE à 8 experts, avec un même niveau de calcul et de nombre de paramètres, tout en réduisant considérablement les accès mémoire. Notamment, UltraMemV2 se distingue par une meilleure performance sur les tâches intensives en mémoire, avec des gains de +1,6 point sur la mémorisation à long contexte, +6,2 point sur la mémorisation multi-tours, et +7,9 point sur l’apprentissage in-context. Nous validons notre approche à grande échelle, sur des modèles atteignant jusqu’à 2,5 milliards de paramètres activés parmi un total de 120 milliards de paramètres, et établissons que la densité d’activation a un impact plus important sur la performance que le nombre total de paramètres creux. Nos travaux permettent aux architectures à mémoire de rivaliser en performance avec les modèles MoE de pointe, offrant ainsi une alternative convaincante pour le calcul creux efficace.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.