HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Évaluation au niveau de l'interface utilisateur de ALLaM 34B : Mesure d'un LLM centré sur l'arabe à l'aide de HUMAIN Chat

Omer Nacar

Évaluation au niveau de l'interface utilisateur de ALLaM 34B : Mesure d'un LLM centré sur l'arabe à l'aide de HUMAIN Chat

Résumé

Les grands modèles linguistiques (LLM) entraînés principalement sur des corpus en anglais peinent souvent à capturer les nuances linguistiques et culturelles de l’arabe. Pour combler cet écart, l’Autorité saoudienne des données et de l’intelligence artificielle (SDAIA) a lancé la famille de modèles dédiés à l’arabe, ALLaM. Le modèle le plus performant actuellement disponible au public, ALLaM-34B, a été adopté par HUMAIN, qui a développé et déployé HUMAIN Chat, un service web conversationnel fermé basé sur ce modèle. Ce papier présente une évaluation approfondie et raffinée au niveau de l’interface (UI) d’ALLaM-34B. En utilisant un ensemble de prompts couvrant l’arabe standard moderne (MSA), cinq dialectes régionaux, le code-switching, les connaissances factuelles, le raisonnement arithmétique et temporel, la génération créative, ainsi que la sécurité adverse, nous avons collecté 115 réponses (23 prompts × 5 exécutions) et les avons notées par trois juges LLM de pointe (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Nous avons calculé les moyennes par catégorie avec des intervalles de confiance à 95 %, analysé les distributions des notes, et visualisé des cartes thermiques des performances par dialecte. L’analyse mise à jour révèle des performances constamment élevées sur les tâches de génération et de code-switching (toutes deux moyennant 4,92/5), des résultats solides en traitement de l’arabe standard moderne (4,74/5), une capacité de raisonnement solide (4,64/5), ainsi qu’une amélioration notable de la fidélité aux dialectes (4,21/5). Les prompts liés à la sécurité montrent des performances stables et fiables (4,54/5). Ensemble, ces résultats positionnent ALLaM-34B comme un modèle arabe robuste et ancré dans son contexte culturel, démontrant à la fois une puissance technique et une préparation opérationnelle pour un déploiement dans des environnements réels.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Évaluation au niveau de l'interface utilisateur de ALLaM 34B : Mesure d'un LLM centré sur l'arabe à l'aide de HUMAIN Chat | Articles de recherche | HyperAI