HyperAIHyperAI
منذ 2 أشهر

تدريب نماذج اللغة الكبيرة المحسنة من حيث الحوسبة

Jordan Hoffmann; Sebastian Borgeaud; Arthur Mensch; Elena Buchatskaya; Trevor Cai; Eliza Rutherford; Diego de Las Casas; Lisa Anne Hendricks; Johannes Welbl; Aidan Clark; Tom Hennigan; Eric Noland; Katie Millican; George van den Driessche; Bogdan Damoc; Aurelia Guy; Simon Osindero; Karen Simonyan; Erich Elsen; Jack W. Rae; Oriol Vinyals; Laurent Sifre
تدريب نماذج اللغة الكبيرة المحسنة من حيث الحوسبة
الملخص

نقوم بدراسة الحجم الأمثل للنموذج وعدد الرموز لتدريب نموذج لغوي من نوع الترانسفورمر ضمن ميزانية حسابية معينة. وقد اكتشفنا أن النماذج اللغوية الكبيرة الحالية تدربت بشكل غير كافٍ، وهو نتيجة للتركيز الأخير على توسيع نطاق النماذج اللغوية مع ثبات كمية البيانات التدريبية. من خلال تدريب أكثر من 400 نموذج لغوي تتراوح معلماته من 70 مليوناً إلى أكثر من 16 ملياراً على ما بين 5 إلى 500 مليار رمز، وجدنا أنه بالنسبة للتدريب الأمثل حاسوبيًا، يجب توسيع نطاق حجم النموذج وعدد الرموز التدريبية بالتساوي: لكل مضاعفة لحجم النموذج يجب مضاعفة عدد الرموز التدريبية أيضاً.لقد اختبرنا هذه الفرضية عبر تدريب نموذج متوقع بأنه أمثل حاسوبيًا، أطلق عليه اسم Chinchilla (تشينشيلا)، والذي يستخدم نفس الميزانية الحاسوبية مثل Gopher (غوفر) ولكن بمعلمة قدرها 70 ملياراً وأربع مرات أكثر من البيانات. وقد أظهر تشينشيلا تفوقًا واضحًا ومهمًا على غوفر (280 مليار معلمة)، وجيت-3 (175 مليار معلمة)، وجوراسيك-1 (178 مليار معلمة)، وميجاترون-تورينغ NLG (530 مليار معلمة) في مجموعة واسعة من مهمات التقييم اللاحقة. هذا يعني أيضًا أن تشينشيلا يستخدم حسابياً أقل بكثير للمعايرة الدقيقة والاستدلال، مما يسهل استخدامه اللاحق بشكل كبير.كأحد النقاط البارزة، حقق تشينشيلا دقة متوسطة قياسية بلغت 67.5٪ في مقاييس MMLU (Multi-Modal Language Understanding)، وهي زيادة تزيد عن 7٪ عن غوفر.

تدريب نماذج اللغة الكبيرة المحسنة من حيث الحوسبة | أحدث الأوراق البحثية | HyperAI