Command Palette
Search for a command to run...
Le Dragonnaître : le lien manquant entre le Transformer et les modèles du cerveau
Adrian Kosowski Przemysław Uznański Jan Chorowski Zuzanna Stamirowska Michał Bartoszkiewicz

Résumé
Le lien entre les systèmes informatiques et le cerveau a constitué une source d’inspiration majeure pour les théoriciens pionniers depuis John von Neumann et Alan Turing. Les réseaux biologiques uniformes et sans échelle, tels que le cerveau, possèdent des propriétés puissantes, notamment la capacité à généraliser au fil du temps — une barrière principale pour l’apprentissage automatique sur la voie vers des modèles de raisonnement universel.Nous introduisons `Dragon Hatchling' (BDH), une nouvelle architecture de modèle de langage à grande échelle fondée sur un réseau biologiquement inspiré sans échelle composé de particules neuronales interagissant localement. BDH allie des fondements théoriques solides et une interprétabilité intrinsèque, sans compromettre des performances comparables à celles des Transformers.BDH est une architecture d’apprentissage séquentiel à base d’attention et d’espace d’état, performante et à l’état de l’art, adaptée à des applications pratiques. En plus d’être un modèle de graphe, BDH admet une formulation compatible avec les GPU. Elle respecte des lois d’échelle similaires à celles des Transformers : empiriquement, BDH atteint des performances comparables à celles de GPT-2 sur des tâches de langage et de traduction, pour le même nombre de paramètres (de 10 millions à 1 milliard) et les mêmes données d’entraînement.BDH peut être représentée comme un modèle cérébral. La mémoire de travail de BDH pendant l’inférence repose entièrement sur la plasticité synaptique, selon un mécanisme d’apprentissage de Hebb, avec des neurones à impulsions (spiking neurons). Nous avons confirmé empiriquement que des synapses spécifiques et individuelles renforcent leurs connexions chaque fois que BDH entend ou raisonne sur un concept particulier lors du traitement d’inputs linguistiques. Le réseau d’interaction neuronale de BDH forme un graphe hautement modulaire, caractérisé par une distribution de degré à queue lourde. Ce modèle est biologiquement plausible, offrant une explication possible du mécanisme par lequel les neurones humains pourraient réaliser la parole.BDH a été conçu pour assurer une interprétabilité élevée. Les vecteurs d’activation de BDH sont creux et positifs. Nous démontrons la monosémie dans BDH sur des tâches de langage. L’interprétabilité de l’état — qui va au-delà de l’interprétabilité des neurones et des paramètres du modèle — constitue une caractéristique inhérente à l’architecture BDH.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.