LINGOLY : Un Benchmark de Casse-têtes de Raisonnement Linguistique au Niveau Olympique dans les Langues à Ressources Limitées et les Langues Éteintes

Dans cet article, nous présentons le benchmark LingOly, une nouvelle référence pour évaluer les capacités de raisonnement avancé dans les grands modèles linguistiques. En utilisant des énigmes complexes issues des Olympiades Linguistiques, nous évaluons (i) la capacité d'identification et de généralisation des motifs linguistiques dans des langues à ressources très limitées ou disparues, et (ii) la capacité de suivre des instructions de tâches complexes. Le benchmark LingOly couvre plus de 90 langues, principalement à ressources limitées, minimisant ainsi les problèmes de contamination des données, et contient 1 133 problèmes répartis en 6 formats et 5 niveaux de difficulté humaine. Nous mesurons les performances à la fois par l'exactitude directe et par comparaison avec une ligne de base sans contexte afin de pénaliser la mémorisation. Les scores obtenus par 11 modèles linguistiques de pointe montrent que ce benchmark est difficile, et que les modèles se débrouillent mal sur les problèmes de difficulté supérieure. Sur les problèmes plus difficiles, même le modèle le mieux classé n'a atteint qu'une précision de 38,7 %, soit une amélioration de 24,7 % par rapport à la ligne de base sans contexte. En général, les grands modèles fermés surpassent les modèles ouverts, et plus une langue dispose de ressources importantes, meilleures sont les performances. Ces résultats indiquent que, en l'absence de mémorisation, le véritable raisonnement hors domaine en plusieurs étapes reste un défi pour les modèles linguistiques actuels.