HyperAI超神经

Une équipe de chercheurs du MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) et du Department of Electrical Engineering and Computer Science a découvert comment les modèles de langage, comme ChatGPT, traitent les changements d'état dans des séquences complexes. Au lieu de suivre ces changements pas à pas, les modèles utilisent des raccourcis mathématiques astucieux pour faire des prédictions raisonnables. Les chercheurs ont mené leurs observations en utilisant un jeu de concentration classique, similaire à une partie de "trouver la balle sous le gobelet". Les modèles devaient deviner l'arrangement final de chiffres après avoir reçu des instructions sur leur déplacement. Par exemple, ils recevaient une séquence initiale comme "42135" et des consignes sur où et quand déplacer chaque chiffre. L'équipe a identifié deux principaux algorithmes que les modèles de langage utilisent pour résoudre ce type de problème : l'Algorithme Associatif et l'Algorithme Parité-Associatif. L'Algorithme Associatif organise les étapes proches en groupes, formant une structure arborescente. La séquence initiale est la "racine" de l'arbre, et chaque étape est regroupée en branches différentes avant d'être multipliée ensemble. Le résultat final est obtenu en combinant toutes les séquences issues des branches. L'Algorithme Parité-Associatif, quant à lui, réduit d'abord les options en déterminant si l'arrangement final est le résultat d'un nombre pair ou impair de réarrangements des chiffres. Ensuite, il groupe les séquences adjacentes des différentes étapes avant de les multiplier, de manière similaire à l'Algorithme Associatif. Belinda Li, doctorante au MIT et affiliée à CSAIL, auteure principale de l'article, explique que ces comportements montrent que les transformateurs simulent les changements d'état par balayage associatif. Ils organisent les informations en hiérarchies plutôt que de suivre chaque changement individuellement. Pour améliorer le suivi d'état des transformateurs, Li suggère de s'adapter aux approches naturelles qu'ils utilisent, plutôt que de les contraindre à des inférences séquentielles humaines. Une voie de recherche consiste à augmenter le calcul de test en profondeur plutôt que par le nombre de jetons (tokens) lors de la raisonnement en temps de test. Cela implique d'augmenter le nombre de couches de transformateur plutôt que le nombre de tokens de chaîne de pensée. Cette approche permettrait aux transformateurs de construire des arbres de raisonnement plus profonds, améliorant ainsi leur capacité de prédiction. Pour observer ces algorithmes en action, les chercheurs ont utilisé des méthodes comme le "probing" et le "activation patching". Le "probing" permet de visualiser les informations qui circulent à travers un système d'IA, montrant les prédictions intermédiaires du modèle au cours de l'expérience. Le "activation patching" consiste à perturber certaines parties du réseau en y injectant des informations incorrectes, tout en gardant d'autres parties constantes, pour voir comment le modèle ajuste ses prédictions. Ces outils ont révélé que l'Algorithme Associatif apprenait plus rapidement et performait mieux sur des séquences plus longues que l'Algorithme Parité-Associatif. Li attribue les difficultés de ce dernier à une trop grande dépendance aux heuristiques, des règles qui permettent de trouver rapidement une solution raisonnable mais qui peuvent limiter la généralisation du modèle. Les chercheurs ont également constaté que l'utilisation précoce de heuristiques pendant l'entraînement pouvait conduire les modèles à intégrer ces raccourcis dans leurs mécanismes, ce qui affecte négativement leur capacité à généraliser. Certains objectifs d'entraînement préalable peuvent décourager ou encourager ces schémas, ouvrant la voie à de nouvelles techniques visant à améliorer l'apprentissage des modèles de langage. Les expériences ont été réalisées sur des modèles de langage à petite échelle entraînés sur des données synthétiques, mais la taille du modèle n'a eu que peu d'impact sur les résultats. Cela suggère que l'ajustement fin (fine-tuning) de modèles de langage plus larges, comme GPT 4.1, produirait des résultats similaires. L'équipe prévoit d'examiner plus en détail ses hypothèses en testant des modèles de langage de différentes tailles non ajustés, évaluant leur performance sur des tâches dynamiques du monde réel, telles que le suivi de code et la compréhension de l'évolution des histoires. Keyon Vafa, postdoctorant à Harvard, qui n'était pas impliqué dans l'étude, souligne que ces découvertes pourraient améliorer significativement les modèles de langage. De nombreuses applications de ces modèles dépendent du suivi d'état, que ce soit pour fournir des recettes, écrire du code ou maintenir le fil d'une conversation. Comprendre comment ces modèles effectuent ces tâches offre des perspectives prometteuses pour leur amélioration. MIT News, une source populaire d'actualités scientifiques et technologiques, a relayé cette étude, mettant en lumière les avancées importantes dans la compréhension des modèles de langage et les stratégies potentielles pour améliorer leur performance. Les implications de ces recherches sont vastes, allant de l'optimisation des systèmes de prédiction météorologique et financier à l'amélioration des interactions conversationnelles avec les IA.

IA utilise des modèles mathématiques arborescents pour prédire des scénarios dynamiques.

Related Links