منذ 2 أشهر

تجاوز قوانين التوسع باستخدام 0.1% من الحوسبة الإضافية

Yi Tay; Jason Wei; Hyung Won Chung; Vinh Q. Tran; David R. So; Siamak Shakeri; Xavier Garcia; Huaixiu Steven Zheng; Jinfeng Rao; Aakanksha Chowdhery; Denny Zhou; Donald Metzler; Slav Petrov; Neil Houlsby; Quoc V. Le; Mostafa Dehghani

عرض تفاصيل الورقة البحثية

تجاوز قوانين التوسع باستخدام 0.1% من الحوسبة الإضافية

الملخص

توسيع نماذج اللغة يحسن الأداء ولكنه يأتي مع تكاليف حسابية كبيرة. تقترح هذه الورقة البحثية طريقة تسمى UL2R، والتي تحسن بشكل كبير النماذج اللغوية الحالية ومنحنيات توسيعها باستخدام كمية إضافية صغيرة نسبيًا من الحوسبة. الفكرة الرئيسية هي مواصلة تدريب نموذج لغوي كبير على أحدث التقنيات (مثل PaLM) لخطوات إضافية قليلة باستخدام هدف مزيج مزيل الضوضاء في UL2. نوضح أنه، وبتكاليف حسابية إضافية شبه غير موجودة ولاستخدام أي مصدر بيانات جديد، يمكننا تحسين خصائص التوسيع للنماذج اللغوية الكبيرة بشكل كبير في المقاييس الثانوية. في هذه الورقة، نستمر في تدريب PaLM باستخدام UL2R، مما يتيح لنا تقديم مجموعة جديدة من النماذج بحجم 8 مليار، 62 مليار، و540 مليار معلمة والتي نطلق عليها اسم U-PaLM. بشكل ملحوظ، عند الحجم 540 مليار، نظهر معدل توفير حسابي يبلغ حوالي ضعفين حيث يصل U-PaLM إلى نفس الأداء الذي حققه النموذج النهائي PaLM 540B بميزانية حسابية تقريبية أقل بنصف (أي توفير ما يقارب 4.4 مليون ساعة على وحدات المعالجة المتوازية TPUv4). نوضح أيضًا أن هذا المنحنى التوسيعي المحسن يؤدي إلى "قدرات ظاهرة" في مهمات BIG-Bench الصعبة - على سبيل المثال، يتفوق U-PaLM على PaLM في بعض المهام أو يظهر جودة أفضل بكثير عند حجم أصغر بكثير (62 مليار بدلاً من 540 مليار). بشكل عام، نوضح أن U-PaLM يتفوق على PaLM في العديد من السيناريوهات القليلة الطلقات، مثل مهام معالجة اللغة الطبيعية باللغة الإنجليزية (مثل الاستدلال الشائع والرد على الأسئلة)، ومهمات الاستدلال ذات السلسلة الفكرية (مثل GSM8K)، والمهمات متعددة اللغات (MGSM وTydiQA)، ومهمات MMLU والمهمات الصعبة في BIG-Bench. وأخيرًا، نقدم أمثلة نوعية تظهر القدرات الجديدة التي يتمتع بها U-PaLM في عمليات الملء الفردي والمتعدد الفواصل.