Des petits modèles linguistiques surpassent les géants grâce à une méthode collaborative révolutionnaire
Malgré les progrès fulgurants des modèles de langage (LM) dans des tâches comme la génération d’images, les réponses à des questions triviales ou les calculs simples, ils peinent encore à faire preuve d’un raisonnement humain complexe. Par exemple, résoudre un Sudoku — un jeu exigeant de respecter des contraintes strictes sur les lignes, colonnes et blocs — reste un défi pour ces systèmes : ils peuvent vérifier une solution, mais ont du mal à la construire eux-mêmes. Cette limitation s’applique aussi à des tâches exigeantes comme la conception de molécules ou la rédaction de preuves mathématiques, où les modèles sont souvent meilleurs pour guider l’utilisateur que pour agir eux-mêmes. Les petits modèles de langage (small LMs) échouent fréquemment à explorer efficacement l’espace des solutions tout en respectant des contraintes. Les grands modèles (LLMs), bien qu’ils puissent parfois réussir, sont lents et consomment énormément de ressources. Face à ce dilemme, des chercheurs du MIT, au sein du Laboratoire d’informatique et d’intelligence artificielle (CSAIL), ont conçu une approche collaborative baptisée DisCIPL (Distributional Constraints by Inference Programming with Language Models). Ce cadre repose sur une division du travail : un grand modèle (LLM) agit comme planificateur, élaborant une stratégie détaillée, puis délègue la réalisation concrète à plusieurs petits modèles (followers). Ces derniers, plus rapides et moins coûteux, exécutent des parties spécifiques de la tâche sous la supervision du modèle principal, qui corrige leurs sorties si nécessaire — par exemple en remplaçant une formulation inappropriée dans un poème par une alternative plus pertinente. Le système utilise un langage de programmation dédié aux modèles de langage, LLaMPPL, développé par le Projet de calcul probabiliste du MIT en 2023. Ce langage permet d’encoder des règles précises — comme « écrire huit vers, chacun de huit mots » — pour guider les petits modèles. Dans les expérimentations, GPT-4o a servi de planificateur, tandis que des modèles Llama-3.2-1B, plus petits, ont produit chaque mot d’un texte. DisCIPL a surpassé non seulement un modèle seul (follower-only), mais aussi GPT-4o et le système de pointe o1 d’OpenAI, en termes de précision et de cohérence, tout en étant bien plus efficace. Les résultats montrent que DisCIPL réduit de 40,1 % la longueur du raisonnement et de 80,2 % les coûts par rapport à o1, car il « raisonne » en écrivant du code Python, plus compact que du texte. Les petits modèles utilisés sont 1 000 à 10 000 fois moins chers par token, rendant le système hautement scalable : des dizaines de modèles peuvent fonctionner en parallèle à faible coût. Le cadre a également performé sur des tâches concrètes : listes d’ingrédients, itinéraires de voyage, propositions de subventions avec contraintes de longueur. GPT-4o a échoué sur certaines, tandis que le modèle follower seul a été systématiquement le moins performant. Selon Jacob Andreas, chercheur principal au CSAIL, cette méthode permet d’appliquer aux générations de texte les gains d’efficacité et de fiabilité observés dans d’autres domaines comme la robotique ou les mathématiques, grâce à une formalisation automatique du raisonnement. Les chercheurs envisagent d’élargir DisCIPL à des tâches mathématiques complexes, où la vérification est difficile, et à des préférences floues non codables. Ils prévoient aussi une version récursive où un même modèle peut jouer les deux rôles. Cette recherche, menée par Gabriel Grand, Joshua Tenenbaum, Vikash Mansinghka et Alex Lew, a été présentée à la Conférence sur les modèles linguistiques et à un atelier d’IVADO, et soutenue par plusieurs organismes, dont le MIT Quest for Intelligence, la NSF et DARPA.
