HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 jours

AraLingBench : Un benchmark annoté par des humains pour évaluer les capacités linguistiques arabes des grands modèles linguistiques (LLM)

Mohammad Zbib Hasan Abed Al Kader Hammoud Sina Mukalled Nadine Rizk Fatima Karnib Issam Lakkis Ammar Mohanna Bernard Ghanem

AraLingBench : Un benchmark annoté par des humains pour évaluer les capacités linguistiques arabes des grands modèles linguistiques (LLM)

Résumé

Nous présentons AraLingBench : un benchmark entièrement annoté par des humains destiné à évaluer la compétence linguistique arabe des grands modèles linguistiques (LLM). Ce benchmark couvre cinq catégories fondamentales : grammaire, morphologie, orthographe, compréhension écrite et syntaxe, à travers 150 questions à choix multiples conçues par des experts, permettant une évaluation directe de la compréhension structurale du langage. L’évaluation de 35 modèles linguistiques arabes et bilingues révèle que les modèles actuels présentent une maîtrise solide au niveau superficiel, mais peinent face à des raisonnements grammaticaux et syntaxiques plus profonds. AraLingBench met en évidence un écart persistant entre les scores élevés obtenus sur les benchmarks basés sur les connaissances et la véritable maîtrise linguistique, montrant que de nombreux modèles réussissent davantage par mémoire ou reconnaissance de motifs que par une compréhension authentique. En isolant et en mesurant les compétences linguistiques fondamentales, AraLingBench fournit un cadre diagnostique pour le développement de modèles linguistiques arabes. Le code complet d’évaluation est disponible publiquement sur GitHub.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
AraLingBench : Un benchmark annoté par des humains pour évaluer les capacités linguistiques arabes des grands modèles linguistiques (LLM) | Articles de recherche | HyperAI