منذ 2 أشهر

مستريال 7ب

Albert Q. Jiang; Alexandre Sablayrolles; Arthur Mensch; Chris Bamford; Devendra Singh Chaplot; Diego de las Casas; Florian Bressand; Gianna Lengyel; Guillaume Lample; Lucile Saulnier; Lélio Renard Lavaud; Marie-Anne Lachaux; Pierre Stock; Teven Le Scao; Thibaut Lavril; Thomas Wang; Timothée Lacroix; William El Sayed

عرض تفاصيل الورقة البحثية

الملخص

نقدم نموذج اللغة ميسترال 7B الإصدار 0.1، وهو نموذج يحتوي على 7 مليارات معلمة تم تصميمه لتحقيق أداء وكفاءة متفوقين. يتفوق ميسترال 7B على لاما 2 بـ 13 مليار معلمة في جميع المعايير التي تم تقييمها، وعلى لاما 1 بـ 34 مليار معلمة في مجالات الاستدلال والرياضيات وإنشاء الرموز البرمجية. يستخدم نموذجنا تقنية الانتباه بالاستفسار المجموع (Grouped-Query Attention - GQA) لتحقيق استدلال أسرع، بالإضافة إلى تقنية الانتباه بنافذة الانزلاق (Sliding Window Attention - SWA) للتعامل بكفاءة مع سلاسل ذات طول عشوائي بتكلفة استدلال منخفضة. كما نوفر نموذجًا تم تعديله لتتبع التعليمات، وهو ميسترال 7B -- Instruct، الذي يتفوق على نموذج الدردشة لاما 2 بـ 13 مليار معلمة في كلاً من المعايير البشرية والأتمتة. يتم إصدار نماذجنا بموجب رخصة أباتشي الإصدار 2.0.