Command Palette
Search for a command to run...
التقييم على مستوى واجهة المستخدم لـ ALLaM 34B: قياس نموذج لغوي كبير متمحور حول العربية من خلال محادثة HUMAIN
Omer Nacar

الملخص
النماذج اللغوية الكبيرة (LLMs) التي تم تدريبها بشكل رئيسي على مجموعات بيانات إنجليزية غالبًا ما تواجه صعوبة في التقاط التفاصيل اللغوية والثقافية للعربية. ولسد هذه الفجوة، أطلقت هيئة البيانات والذكاء الاصطناعي في المملكة العربية السعودية (SDAIA) سلسلة ALLaM من النماذج المخصصة للعربية. وقد تم اعتماد أقوى نموذج متاح للعامة من هذه السلسلة، وهو ALLaM-34B، من قبل مشروع HUMAIN، الذي طوّر ونشر خدمة المحادثة المغلقة HUMAIN Chat، المبنية على هذا النموذج. يقدم هذا البحث تقييمًا موسّعًا ومحسّنًا على مستوى واجهة المستخدم لنموذج ALLaM-34B. باستخدام مجموعة من أوامر التوجيه التي تشمل اللغة العربية الفصحى الحديثة، وخمسة لهجات إقليمية، والتبديل بين اللغات، والمعرفة الواقعية، والحساب، والتفكير الزمني، والتعبير الإبداعي، والاختبارات السلوكية الصعبة، جمعنا 115 إخراجًا (23 أمرًا × 5 محاولات)، وقُيم كل إخراج من قبل ثلاثة من أبرز مُقيّمي النماذج اللغوية الكبيرة (GPT-5، Gemini 2.5 Pro، Claude Sonnet-4). وحسبنا المتوسطات على مستوى الفئات مع حدود الثقة بنسبة 95%، وحلّلنا توزيع النتائج، ورسمنا خرائط حرارية لقياس الأداء حسب اللهجات. أظهر التحليل المُحدّث أداءً متميزًا وثابتًا في مهام الإنشاء والتبديل بين اللغات (بمتوسط 4.92 من 5 في كلتا الحالتين)، إلى جانب نتائج قوية في التعامل مع اللغة العربية الفصحى (4.74 من 5)، ومهارة تفكير متميزة (4.64 من 5)، وتحسين ملحوظ في واقعية اللهجات (4.21 من 5). كما أظهرت الأوامر المتعلقة بالسلامة أداءً مستقرًا وموثوقًا (4.54 من 5). وبشكل عام، تُثبت هذه النتائج أن ALLaM-34B هو نموذج لغوي عربي قوي ومتصل بالسياق الثقافي، ويتميز بالقوة التقنية والاستعداد العملي للاستخدام الفعلي في البيئات الواقعية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.