Command Palette
Search for a command to run...
AraLingBench : Un benchmark annoté par des humains pour évaluer les capacités linguistiques arabes des grands modèles linguistiques (LLM)
Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

Résumé
Nous présentons AraLingBench : un benchmark entièrement annoté par des humains destiné à évaluer la compétence linguistique arabe des grands modèles linguistiques (LLM). Ce benchmark couvre cinq catégories fondamentales : grammaire, morphologie, orthographe, compréhension écrite et syntaxe, à travers 150 questions à choix multiples conçues par des experts, permettant une évaluation directe de la compréhension structurale du langage. L’évaluation de 35 modèles linguistiques arabes et bilingues révèle que les modèles actuels présentent une maîtrise solide au niveau superficiel, mais peinent face à des raisonnements grammaticaux et syntaxiques plus profonds. AraLingBench met en évidence un écart persistant entre les scores élevés obtenus sur les benchmarks basés sur les connaissances et la véritable maîtrise linguistique, montrant que de nombreux modèles réussissent davantage par mémoire ou reconnaissance de motifs que par une compréhension authentique. En isolant et en mesurant les compétences linguistiques fondamentales, AraLingBench fournit un cadre diagnostique pour le développement de modèles linguistiques arabes. Le code complet d’évaluation est disponible publiquement sur GitHub.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.