Command Palette
Search for a command to run...
L'illusion des rendements décroissants : Mesurer l'exécution à long terme dans les grands modèles linguistiques
Akshit Sinha Arvindh Arun Shashwat Goel Steffen Staab Jonas Geiping

Résumé
L’augmentation continue des grands modèles linguistiques (LLM) entraîne-t-elle des rendements décroissants ? La valeur réelle dans les applications concrètes provient souvent de la longueur de la tâche qu’un agent peut accomplir. Dans ce travail, nous partons de l’observation simple mais contre-intuitive selon laquelle les gains marginaux en précision à une étape peuvent s’accumuler de manière exponentielle, permettant ainsi à un modèle de mener à bien des tâches bien plus longues. Ensuite, nous affirmons que les échecs des LLM lorsqu’on allonge des tâches simples proviennent davantage d’erreurs d’exécution que d’un manque de capacité de raisonnement. Nous proposons d’isoler la capacité d’exécution en fournissant explicitement, pour résoudre une tâche à horizon long, les connaissances et le plan nécessaires. Nous constatons que les modèles plus grands parviennent à exécuter significativement plus de tours, même lorsque les modèles plus petits atteignent une précision de 100 % à chaque étape. Nous observons que la précision par étape des modèles diminue à mesure que le nombre d’étapes augmente. Ce phénomène ne s’explique pas uniquement par les limitations liées au contexte long — de manière surprenante, nous constatons un effet de « self-conditioning » : les modèles sont plus susceptibles de commettre des erreurs lorsque le contexte contient leurs propres erreurs des tours précédents. Cet effet de self-conditioning n’est pas atténué simplement par une augmentation de la taille du modèle. À l’inverse, les modèles récents conçus pour penser (thinking models) ne présentent pas cet effet de self-conditioning, et sont capables d’exécuter des tâches bien plus longues en une seule étape. En conclusion, nous évaluons les modèles de pointe en matière de raisonnement sur la longueur de tâche qu’ils peuvent exécuter en une seule étape. Globalement, en nous concentrant sur la capacité d’exécution, nous espérons apaiser les débats sur la capacité des LLM à résoudre des problèmes complexes de raisonnement tout en échouant à des tâches simples lorsqu’elles sont allongées, et souligner les bénéfices considérables de l’augmentation de la taille des modèles ainsi que du calcul séquentiel au moment de l’exécution (test-time compute) pour les tâches à horizon long.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.