PaLM: توسيع نمذجة اللغة باستخدام المسارات

أظهرت النماذج اللغوية الكبيرة أنها تحقق أداءً ملحوظًا في مجموعة متنوعة من المهام اللغوية الطبيعية باستخدام التعلم بقليل من الأمثلة (few-shot learning)، مما يقلل بشكل كبير عدد أمثلة التدريب الخاصة بالمهام اللازمة لتكيف النموذج مع تطبيق معين. لتوسيع فهمنا للتأثير الذي ت exercize الحجم على التعلم بقليل من الأمثلة، قمنا بتدريب نموذج لغوي متقدم بحجم 540 مليار معلمة، يتميز بتنشيط كثيف، والذي نطلق عليه اسم نموذج المسارات اللغوية (Pathways Language Model) أو PaLM.قمنا بتدريب PaLM على 6144 رقاقة TPU v4 باستخدام نظام المسارات (Pathways)، وهو نظام تعلم آلي جديد يمكّن من التدريب بكفاءة عالية عبر العديد من وحدات TPU. أظهرنا استمرار الفوائد التي يوفرها التوسع عن طريق تحقيق أفضل النتائج في التعلم بقليل من الأمثلة على مئات مقاييس فهم وإنتاج اللغة. وفي بعض هذه المهام، حقق PaLM 540B أداءً ثوريًا، حيث تفوق على أفضل النماذج المعدلة دقيقًا في مجموعة من مهام الاستدلال المتعدد الخطوات، وتفوق على الأداء البشري المتوسط في مؤشر BIG-bench الذي تم إطلاقه حديثًا.أظهرت العديد من مهام BIG-bench تحسينات غير متصلة بسبب حجم النموذج، مما يعني أن الأداء ارتفع بشكل حاد عند توسعنا إلى أكبر نموذج لدينا. كما يتمتع PaLM أيضًا بقدرات قوية في المهام متعددة اللغات وإنتاج شفرة المصدر، والتي نوضحها عبر مجموعة واسعة من المقاييس. بالإضافة إلى ذلك، نقدم تحليلًا شاملًا حول التحيز والسمومية، وندرس مدى حفظ بيانات التدريب بالنسبة لحجم النموذج.أخيرًا، نناقش الاعتبارات الأخلاقية المتعلقة بالنماذج اللغوية الكبيرة ونتطرق إلى استراتيجيات الحد منها المحتملة.