منذ 2 أشهر

PaLM: توسيع نمذجة اللغة باستخدام المسارات

Aakanksha Chowdhery; Sharan Narang; Jacob Devlin; Maarten Bosma; Gaurav Mishra; Adam Roberts; Paul Barham; Hyung Won Chung; Charles Sutton; Sebastian Gehrmann; Parker Schuh; Kensen Shi; Sasha Tsvyashchenko; Joshua Maynez; Abhishek Rao; Parker Barnes; Yi Tay; Noam Shazeer; Vinodkumar Prabhakaran; Emily Reif; Nan Du; Ben Hutchinson; Reiner Pope; James Bradbury; Jacob Austin; Michael Isard; Guy Gur-Ari; Pengcheng Yin; Toju Duke; Anselm Levskaya; Sanjay Ghemawat; Sunipa Dev; Henryk Michalewski; Xavier Garcia; Vedant Misra; Kevin Robinson; Liam Fedus; Denny Zhou; Daphne Ippolito; David Luan; Hyeontaek Lim; Barret Zoph; Alexander Spiridonov; Ryan Sepassi; David Dohan; Shivani Agrawal; Mark Omernick; Andrew M. Dai; Thanumalayan Sankaranarayana Pillai; Marie Pellat; Aitor Lewkowycz; Erica Moreira; Rewon Child; Oleksandr Polozov; Katherine Lee; Zongwei Zhou; Xuezhi Wang; Brennan Saeta; Mark Diaz; Orhan Firat; Michele Catasta; Jason Wei; Kathy Meier-Hellstern; Douglas Eck; Jeff Dean; Slav Petrov; Noah Fiedel

عرض تفاصيل الورقة البحثية

PaLM: توسيع نمذجة اللغة باستخدام المسارات

الملخص

أظهرت النماذج اللغوية الكبيرة أنها تحقق أداءً ملحوظًا في مجموعة متنوعة من المهام اللغوية الطبيعية باستخدام التعلم بقليل من الأمثلة (few-shot learning)، مما يقلل بشكل كبير عدد أمثلة التدريب الخاصة بالمهام اللازمة لتكيف النموذج مع تطبيق معين. لتوسيع فهمنا للتأثير الذي ت exercize الحجم على التعلم بقليل من الأمثلة، قمنا بتدريب نموذج لغوي متقدم بحجم 540 مليار معلمة، يتميز بتنشيط كثيف، والذي نطلق عليه اسم نموذج المسارات اللغوية (Pathways Language Model) أو PaLM.قمنا بتدريب PaLM على 6144 رقاقة TPU v4 باستخدام نظام المسارات (Pathways)، وهو نظام تعلم آلي جديد يمكّن من التدريب بكفاءة عالية عبر العديد من وحدات TPU. أظهرنا استمرار الفوائد التي يوفرها التوسع عن طريق تحقيق أفضل النتائج في التعلم بقليل من الأمثلة على مئات مقاييس فهم وإنتاج اللغة. وفي بعض هذه المهام، حقق PaLM 540B أداءً ثوريًا، حيث تفوق على أفضل النماذج المعدلة دقيقًا في مجموعة من مهام الاستدلال المتعدد الخطوات، وتفوق على الأداء البشري المتوسط في مؤشر BIG-bench الذي تم إطلاقه حديثًا.أظهرت العديد من مهام BIG-bench تحسينات غير متصلة بسبب حجم النموذج، مما يعني أن الأداء ارتفع بشكل حاد عند توسعنا إلى أكبر نموذج لدينا. كما يتمتع PaLM أيضًا بقدرات قوية في المهام متعددة اللغات وإنتاج شفرة المصدر، والتي نوضحها عبر مجموعة واسعة من المقاييس. بالإضافة إلى ذلك، نقدم تحليلًا شاملًا حول التحيز والسمومية، وندرس مدى حفظ بيانات التدريب بالنسبة لحجم النموذج.أخيرًا، نناقش الاعتبارات الأخلاقية المتعلقة بالنماذج اللغوية الكبيرة ونتطرق إلى استراتيجيات الحد منها المحتملة.