منذ 3 أيام

فالفكون-ه1: عائلة من نماذج اللغة ذات الرؤوس الهجينة تعيد تعريف الكفاءة والأداء

Jingwei Zuo, Maksim Velikanov, Ilyas Chahed, Younes Belkada, Dhia Eddine Rhayem, Guillaume Kunsch, Hakim Hacid, Hamza Yous, Brahim Farhat, Ibrahim Khadraoui, Mugariya Farooq, Giulia Campesan, Ruxandra Cojocaru, Yasser Djilali, Shi Hu, Iheb Chaabane, Puneesh Khanna, Mohamed El Amine Seddik, Ngoc Dung Huynh, Phuc Le Khac, Leen AlQadi, Billel Mokeddem, Mohamed Chami, Abdalgader Abubaker, Mikhail Lubinets, Kacper Piskorski, Slim Frikha

عرض تفاصيل الورقة البحثية View Code

فالفكون-ه1: عائلة من نماذج اللغة ذات الرؤوس الهجينة تعيد تعريف الكفاءة والأداء

الملخص

في هذا التقرير، نقدم سلسلة Falcon-H1 من النماذج اللغوية الكبيرة (LLMs) الجديدة، والتي تتميز بتصميمات هجينة تهدف إلى تحقيق أداء عالي الكفاءة في مختلف السياقات الاستخدامية. على عكس النماذج السابقة من سلسلة Falcon التي اعتمدت حصريًا على بنية Transformer أو Mamba، تستخدم Falcon-H1 نهجًا هجينًا متوازٍ يدمج بين انتباه النماذج القائمة على Transformer ونماذج الفضاءات الحالة (SSMs)، المعروفة بقدرتها الفائقة على معالجة السياقات الطويلة والكفاءة الحسابية العالية. وقد قمنا بتحليل معمق لتصميم النموذج واستراتيجية البيانات وديناميكيات التدريب، مُحدِّثين الممارسات التقليدية في هذا المجال. تم إطلاق Falcon-H1 بتكوينات متعددة، تشمل النسخ الأساسية والمحسنة حسب التعليمات (instruction-tuned) بحجم 0.5B و1.5B و1.5B-Deep و3B و7B و34B من المعلمات. كما تتوفر نماذج مُكمَّلة بكمّية مخفضة (quantized) مُحسَّنة حسب التعليمات، ما يُشكِّل ما يزيد عن 30 نقطة تدريب (checkpoint) متاحة على منصة Hugging Face Hub. تُظهر نماذج Falcon-H1 أداءً يُعدّ من أفضل الأداء في مجالها، مع كفاءة متميزة في عدد المعلمات وعمليات التدريب. وتتفوَّق النسخة الرائدة Falcon-H1-34B على نماذج تصل إلى 70B من المعلمات، مثل Qwen3-32B وQwen2.5-72B وLlama3.3-70B، رغم استخدامها لعدد أقل من المعلمات وكمية بيانات أقل. كما تُظهر النماذج الأصغر اتجاهات مماثلة: فنموذج Falcon-H1-1.5B-Deep يُنافس النماذج الرائدة الحالية بحجم 7B–10B، بينما يُظهر Falcon-H1-0.5B أداءً مماثلاً للنماذج النموذجية بحجم 7B التي أُطلقت في عام 2024. وتُبرز هذه النماذج كفاءة عالية في مجالات الاستدلال، والرياضيات، والمهام متعددة اللغات، واتباع التعليمات، والمعرفة العلمية. وبما يدعم حتى 256K من رموز السياق و18 لغة، تُعد Falcon-H1 مناسبة لطيف واسع من التطبيقات. وجميع النماذج مُتاحة تحت ترخيص مفتوح المصدر مرن، مما يعكس التزامنا ببحث الذكاء الاصطناعي القابل للوصول والمؤثر.