HyperAIHyperAI

Command Palette

Search for a command to run...

LINGOLY : Un Benchmark de Casse-têtes de Raisonnement Linguistique au Niveau Olympique dans les Langues à Ressources Limitées et les Langues Éteintes

Andrew Bean* Simi Hellsten Harry Mayne Jabez Magomere Ethan A. Chi Ryan Chi Scott A. Hale Hannah Rose Kirk

Résumé

Dans cet article, nous présentons le benchmark LingOly, une nouvelle référence pour évaluer les capacités de raisonnement avancé dans les grands modèles linguistiques. En utilisant des énigmes complexes issues des Olympiades Linguistiques, nous évaluons (i) la capacité d'identification et de généralisation des motifs linguistiques dans des langues à ressources très limitées ou disparues, et (ii) la capacité de suivre des instructions de tâches complexes. Le benchmark LingOly couvre plus de 90 langues, principalement à ressources limitées, minimisant ainsi les problèmes de contamination des données, et contient 1 133 problèmes répartis en 6 formats et 5 niveaux de difficulté humaine. Nous mesurons les performances à la fois par l'exactitude directe et par comparaison avec une ligne de base sans contexte afin de pénaliser la mémorisation. Les scores obtenus par 11 modèles linguistiques de pointe montrent que ce benchmark est difficile, et que les modèles se débrouillent mal sur les problèmes de difficulté supérieure. Sur les problèmes plus difficiles, même le modèle le mieux classé n'a atteint qu'une précision de 38,7 %, soit une amélioration de 24,7 % par rapport à la ligne de base sans contexte. En général, les grands modèles fermés surpassent les modèles ouverts, et plus une langue dispose de ressources importantes, meilleures sont les performances. Ces résultats indiquent que, en l'absence de mémorisation, le véritable raisonnement hors domaine en plusieurs étapes reste un défi pour les modèles linguistiques actuels.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LINGOLY : Un Benchmark de Casse-têtes de Raisonnement Linguistique au Niveau Olympique dans les Langues à Ressources Limitées et les Langues Éteintes | Articles | HyperAI