MIT Developpe SEAL : Un Cadre Pour Que Les Modèles Linguistiques S'Auto-Adaptent Continuellement
Au-delà de l'IA statique : le nouveau cadre MIT permet aux modèles d'apprendre eux-mêmes 23 juin 2025 Des chercheurs du Massachusetts Institute of Technology (MIT) ont mis au point une nouvelle technologie intitulée « Self-Adapting Language Models » (SEAL), qui offre la possibilité aux grands modèles linguistiques (GLMs) d'apprendre et de s'adapter en continu en mettant à jour leurs propres paramètres internes. SEAL apprend à un GLM à générer ses propres données d'entraînement et instructions d'ajustement, lui permettant ainsi d'intégrer durablement de nouvelles connaissances et de maîtriser de nouvelles tâches. Le défi de l'adaptation des GLMs Malgré leurs impressionnantes capacités, les GLMs ont toujours du mal à s'adapter à des tâches spécifiques, à intégrer de nouvelles informations ou à acquérir des compétences en raisonnement novatrices. Actuellement, lorsque confronté à une nouvelle tâche, un GLM apprend généralement à partir des données brutes par des méthodes telles que le fine-tuning ou l'apprentissage contextuel. Cependant, ces méthodes ne permettent pas toujours une assimilation optimale des informations. Jyo Pari, doctorante à l'MIT et co-auteure de l'étude, explique à VentureBeat : "De nombreux cas d'usage d'entreprise exigent plus qu'un simple rappel de faits — ils nécessitent une adaptation profonde et persistante. Par exemple, un assistant codage pourrait avoir besoin d'intégrer le cadre de logiciels spécifique d'une entreprise, ou un modèle orienté client devrait apprendre le comportement unique ou les préférences d'un utilisateur au fil du temps." Dans ces scénarios, une simple récupération temporaire des données est insuffisante ; les connaissances doivent être intégrées de manière permanente aux poids du modèle afin d'influencer toutes les réponses futures. Créer des modèles linguistiques auto-adaptatifs Les chercheurs proposent SEAL comme étape vers une adaptation rapide et efficace des modèles linguistiques. SEAL utilise un algorithme d'apprentissage par renforcement (RL) pour enseigner à un GLM à générer des « auto-modifications » — des instructions en langage naturel précisant comment le modèle doit ajuster ses propres poids. Ces auto-modifications peuvent restructurer les nouvelles informations, créer des exemples d'entraînement synthétiques, voire définir les paramètres techniques du processus d'apprentissage. Le cadre SEAL fonctionne sur un système en deux boucles. Dans une « boucle interne », le modèle utilise une auto-modification pour effectuer une petite mise à jour temporaire de ses poids. Dans une « boucle externe », le système évalue si cette mise à jour a amélioré la performance du modèle sur une tâche cible. Si c'est le cas, le modèle reçoit une récompense positive, renforçant sa capacité à générer de telles auto-modifications efficaces à l'avenir. Au fil du temps, le GLM devient expert pour s'enseigner lui-même. Lors de leur étude, les chercheurs ont utilisé un seul modèle pour l'ensemble du cadre SEAL, mais ils ont également信号错误,将继续以法语提供余下的总结: SEAL à l'œuvre Les chercheurs ont testé SEAL dans deux domaines clés : l'incorporation de connaissances et l'apprentissage low-shot. Pour l'incorporation de connaissances, l'objectif était de vérifier si le modèle pouvait répondre à des questions sur un texte sans y avoir accès lors de l'interrogation. En ajustant Llama-3.2-1B sur le texte brut, les résultats n'ont que peu amélioré par rapport au modèle de base. Cependant, lorsque le modèle SEAL a créé des « auto-modifications » en générant plusieurs « implications » à partir d'un passage et a été formé sur ces données synthétiques, son exactitude a grimpé à 47 %. Remarquablement, cela a surpassé les résultats obtenus avec des données synthétiques générées par le modèle bien plus grand GPT-4.1, ce qui indique que le modèle a su fabriquer des matériaux d'entraînement supérieurs pour lui-même. Pour l'apprentissage low-shot, les chercheurs ont testé SEAL sur des exemples provenant du Corpus de Raisonnement Abstrait (ARC), où le modèle doit résoudre des puzzles visuels. Pendant la phase d'auto-modification, le modèle devait générer la stratégie complète d'adaptation, incluant quelles augmentations de données et outils utiliser, ainsi que quelle taux d'apprentissage appliquer. SEAL a atteint un taux de réussite de 72,5 %, un bond significatif par rapport aux 20 % obtenus sans entraînement par RL et aux 0 % réalisés par l'apprentissage contextuel standard. Implications pour l'entreprise Certains experts prévoient que l'offre de données d'entraînement de haute qualité générées par des humains pourrait s'épuiser dans les années à venir. Les progrès dépendront bientôt de « la capacité d'un modèle à générer ses propres signaux d'entraînement à forte utilité ». Par exemple, un GLM pourrait ingérer des documents complexes tels que des articles académiques ou des rapports financiers et générer automatiquement des milliers d'explications et d'implications pour approfondir sa compréhension. Cette boucle itérative d'expression personnelle et de raffinement pourrait permettre aux modèles de continuer à s'améliorer sur des sujets rares ou sous-représentés même en l'absence d'une supervision externe supplémentaire. Cette capacité est particulièrement prometteuse pour la création d'agents IA. Les systèmes agences doivent acquérir et retenir des connaissances progressivement à mesure qu'ils interagissent avec leur environnement. SEAL fournit un mécanisme pour cela. Après une interaction, un agent pourrait synthétiser une auto-modification pour déclencher une mise à jour de poids, lui permettant d'intérioriser les leçons apprises. Cela permet à l'agent d'évoluer au fil du temps, d'améliorer ses performances basées sur l'expérience et de réduire sa dépendance au codage statique ou à des consignes humaines répétitives. « SEAL démontre que les grands modèles linguistiques n'ont pas forcément à rester statiques après leur préformation, » écrivent les chercheurs. « En apprenant à générer leurs propres données d'auto-modification synthétiques et à les appliquer par des mises à jour légères des poids, ils peuvent Incorporer de nouvelles connaissances de manière autonome et s'adapter à des tâches inédites. » Limitations de SEAL Cela dit, SEAL n'est pas une solution universelle. Par exemple, il peut souffrir de l'« oubli catastrophique », où des cycles de réentraînement constants entraînent le modèle à oublier ses connaissances antérieures. « Dans notre implémentation actuelle, nous encourageons une approche hybride, » déclare Pari. « Les entreprises devraient être sélectives sur les connaissances importantes à intégrer de manière permanente. » Les données factuelles et évolutives peuvent rester en mémoire externe grâce à RAG, tandis que les connaissances durables qui façonnent le comportement sont mieux adaptées aux mises à jour de niveau poids via SEAL. « Cette stratégie hybride de mémoire garantit que les informations pertinentes restent pérennes sans submerger le modèle ou introduire un oubli inutile, » souligne-t-elle. Il est également pertinent de noter que la calibration des exemples d'auto-modification et l'entraînement du modèle demandent un certain temps, rendant l'édition continue et en temps réel inopérante dans la plupart des environnements de production. « Nous imaginons un déploiement plus pratique où le système collecte des données sur une période — disons, quelques heures ou une journée — puis effectue des auto-modifications ciblées pendant des périodes de mise à jour planifiées, » explique Pari. « Cette approche permet aux entreprises de contrôler le coût de l'adaptation tout en tirant profit de la capacité de SEAL à intérioriser de nouvelles connaissances. » Évaluation par les professionnels de l'industrie et profil de l'entreprise SEAL représente une avancée significative dans le champ des grandes modèles linguistiques, offrant une solution innovante pour maintenir la pertinence et la performance des modèles dans des environnements dynamiques. Cela pourrait revêtir une importance cruciale pour les entreprises tech leaders, notamment celles qui opèrent avec des volumes élevés de données en constante évolution. MIT continue d'Explorer et de développer des technologies de pointe en IA, contribuant ainsi à la croissance continue de ce secteur. L'approche hybride proposée par Pari et ses collègues, qui combine l'adaptation continue et les mémoires externes, offre une balance entre la flexibilité et le contrôle, essentielle pour l'adoption industrielle de SEAL. Les entreprises pourront ajuster cette stratégie en fonction de leurs besoins spécifiques, assurant ainsi une adaptation efficace et durable de leurs modèles IA.