Command Palette
Search for a command to run...
CL-bench : un benchmark pour l'apprentissage du contexte
CL-bench : un benchmark pour l'apprentissage du contexte
Résumé
Les modèles linguistiques actuels (LM) excellent dans le raisonnement à partir de prompts en s’appuyant sur des connaissances pré-entraînées. Toutefois, les tâches du monde réel sont bien plus complexes et dépendantes du contexte : les modèles doivent apprendre à partir de contextes spécifiques à chaque tâche et exploiter de nouvelles connaissances allant au-delà de celles acquises durant l’entraînement préalable afin de raisonner et résoudre ces tâches. Nous désignons cette capacité par « apprentissage contextuel », une compétence fondamentale que les humains possèdent naturellement, mais qui a largement été négligée jusqu’à présent. À cet effet, nous introduisons CL-bench, un benchmark réel comprenant 500 contextes complexes, 1 899 tâches et 31 607 critères de vérification, tous conçus par des experts expérimentés dans leurs domaines respectifs. Chaque tâche est conçue de manière à ce que le contenu nouveau nécessaire à sa résolution soit intégralement contenu dans le contexte correspondant. Résoudre les tâches de CL-bench exige des modèles qu’ils apprennent à partir du contexte, qu’il s’agisse de nouvelles connaissances spécifiques à un domaine, de systèmes de règles, de procédures complexes ou encore de lois déduites à partir de données empiriques — toutes absentes de l’entraînement préalable. Cette exigence va bien au-delà des tâches à long contexte, qui testent principalement la récupération d’information ou la compréhension de lecture, ainsi que des tâches d’apprentissage in-context où les modèles apprennent des motifs simples de tâche à partir d’instructions et de démonstrations. Nos évaluations sur dix modèles linguistiques de pointe révèlent que les modèles ne résolvent en moyenne que 17,2 % des tâches. Même le modèle le plus performant, GPT-5.1, n’atteint qu’un taux de 23,7 %, ce qui montre que les modèles linguistiques n’ont pas encore atteint une capacité efficace d’apprentissage contextuel — un goulot d’étranglement critique pour aborder des tâches complexes du monde réel dépendantes du contexte. CL-bench constitue une étape importante vers le développement de modèles linguistiques dotés de cette capacité fondamentale, les rendant ainsi plus intelligents et favorisant leur déploiement dans des scénarios du monde réel.