منذ 2 أشهر

سلسلة فالكون من نماذج اللغة المفتوحة

Ebtesam Almazrouei; Hamza Alobeidli; Abdulaziz Alshamsi; Alessandro Cappelli; Ruxandra Cojocaru; Mérouane Debbah; Étienne Goffinet; Daniel Hesslow; Julien Launay; Quentin Malartic; Daniele Mazzotta; Badreddine Noune; Baptiste Pannier; Guilherme Penedo

عرض تفاصيل الورقة البحثية

الملخص

نقدم سلسلة فالكون: نماذج مفككة فقط ذات علاقات سببية بحجم 7 مليار، 40 مليار، و180 مليار معلمة تم تدريبها على مجموعة متنوعة ومتميزة من النصوص التي تم جمعها بشكل أساسي من بيانات الويب. النموذج الأكبر، فالكون-180B، قد تم تدريبه على أكثر من 3.5 تريليون رمز نصي--وهو أكبر عملية تدريبية موثقة علنيًا حتى الآن. يتفوق فالكون-180B بشكل كبير على النماذج مثل PaLM أو Chinchilla، ويحسن أداء النماذج المطورة بالتوازي مثل LLaMA 2 أو Inflection-1. يقترب أداءه من PaLM-2-Large مع تكلفة أقل للتدريب والاستدلال، مما يجعله، حسب علمنا، أحد أفضل ثلاثة نماذج لغوية في العالم إلى جانب GPT-4 وPaLM-2-Large. نقدم تقييمات مفصلة بالإضافة إلى دراسة عميقة للطرق والأدوات المخصصة المستخدمة في تدريب فالكون. ومن الجدير بالذكر أننا نقدم شفرة التدريب الموزع الخاصة بنا، والتي تسمح لنا بتدريب هذه النماذج بكفاءة على ما يصل إلى 4,096 معالج A100 في البنية التحتية السحابية AWS مع اتصال محدود بين المعالجين. كما نطلق استخراجًا يحتوي على 600 مليار رمز نصي من قاعدة بيانات الويب الخاصة بنا، بالإضافة إلى نماذج فالكون بحجم 7/40/180 مليار تحت رخصة مرنة لتعزيز العلوم المفتوحة وتسرع تطوير نظام بيئي مفتوح للنماذج اللغوية الكبيرة.