فالفكون-ه1: عائلة من نماذج اللغة ذات الرؤوس الهجينة تعيد تعريف الكفاءة والأداء

في هذا التقرير، نقدم سلسلة Falcon-H1 من النماذج اللغوية الكبيرة (LLMs) الجديدة، والتي تتميز بتصميمات هجينة تهدف إلى تحقيق أداء عالي الكفاءة في مختلف السياقات الاستخدامية. على عكس النماذج السابقة من سلسلة Falcon التي اعتمدت حصريًا على بنية Transformer أو Mamba، تستخدم Falcon-H1 نهجًا هجينًا متوازٍ يدمج بين انتباه النماذج القائمة على Transformer ونماذج الفضاءات الحالة (SSMs)، المعروفة بقدرتها الفائقة على معالجة السياقات الطويلة والكفاءة الحسابية العالية. وقد قمنا بتحليل معمق لتصميم النموذج واستراتيجية البيانات وديناميكيات التدريب، مُحدِّثين الممارسات التقليدية في هذا المجال. تم إطلاق Falcon-H1 بتكوينات متعددة، تشمل النسخ الأساسية والمحسنة حسب التعليمات (instruction-tuned) بحجم 0.5B و1.5B و1.5B-Deep و3B و7B و34B من المعلمات. كما تتوفر نماذج مُكمَّلة بكمّية مخفضة (quantized) مُحسَّنة حسب التعليمات، ما يُشكِّل ما يزيد عن 30 نقطة تدريب (checkpoint) متاحة على منصة Hugging Face Hub. تُظهر نماذج Falcon-H1 أداءً يُعدّ من أفضل الأداء في مجالها، مع كفاءة متميزة في عدد المعلمات وعمليات التدريب. وتتفوَّق النسخة الرائدة Falcon-H1-34B على نماذج تصل إلى 70B من المعلمات، مثل Qwen3-32B وQwen2.5-72B وLlama3.3-70B، رغم استخدامها لعدد أقل من المعلمات وكمية بيانات أقل. كما تُظهر النماذج الأصغر اتجاهات مماثلة: فنموذج Falcon-H1-1.5B-Deep يُنافس النماذج الرائدة الحالية بحجم 7B–10B، بينما يُظهر Falcon-H1-0.5B أداءً مماثلاً للنماذج النموذجية بحجم 7B التي أُطلقت في عام 2024. وتُبرز هذه النماذج كفاءة عالية في مجالات الاستدلال، والرياضيات، والمهام متعددة اللغات، واتباع التعليمات، والمعرفة العلمية. وبما يدعم حتى 256K من رموز السياق و18 لغة، تُعد Falcon-H1 مناسبة لطيف واسع من التطبيقات. وجميع النماذج مُتاحة تحت ترخيص مفتوح المصدر مرن، مما يعكس التزامنا ببحث الذكاء الاصطناعي القابل للوصول والمؤثر.