توسيع نماذج اللغة: الطرق، التحليل، والرؤى من تدريب غوفر

يقدم نمذجة اللغة خطوة نحو أنظمة التواصل الذكية من خلال الاستفادة من مستودعات كبيرة للمعرفة المكتوبة للبشر لتحسين التنبؤ والفهم العالم. في هذا البحث، نقدم تحليلًا لأداء نماذج اللغة المستندة إلى تقنية Transformer على نطاق واسع من أحجام النماذج - بدءًا من النماذج التي تحتوي على ملايين المعلمات حتى نموذج يحتوي على 280 مليار معلمة يُطلق عليه اسم Gopher (غوفر). يتم تقييم هذه النماذج في 152 مهمة متنوعة، حيث حققت أداءً رائدًا في معظمها. تكون المكاسب من الحجم أكبر في مجالات مثل فهم القراءة، التحقق من الحقائق، وتحديد اللغة السامة، بينما ترى المنطقية والرياضيات أقل فائدة. نقدم تحليلًا شاملًا لمجموعة البيانات التدريبية وسلوك النموذج، مع التركيز على تقاطع حجم النموذج مع التحيز والسامة. وأخيرًا، نناقش تطبيقات نماذج اللغة على سلامة الذكاء الاصطناعي وتخفيف الأضرار المحتملة في التطبيقات اللاحقة.