HyperAIHyperAI

Command Palette

Search for a command to run...

تجاوز قوانين التوسع باستخدام 0.1% من الحوسبة الإضافية

الملخص

توسيع نماذج اللغة يحسن الأداء ولكنه يأتي مع تكاليف حسابية كبيرة. تقترح هذه الورقة البحثية طريقة تسمى UL2R، والتي تحسن بشكل كبير النماذج اللغوية الحالية ومنحنيات توسيعها باستخدام كمية إضافية صغيرة نسبيًا من الحوسبة. الفكرة الرئيسية هي مواصلة تدريب نموذج لغوي كبير على أحدث التقنيات (مثل PaLM) لخطوات إضافية قليلة باستخدام هدف مزيج مزيل الضوضاء في UL2. نوضح أنه، وبتكاليف حسابية إضافية شبه غير موجودة ولاستخدام أي مصدر بيانات جديد، يمكننا تحسين خصائص التوسيع للنماذج اللغوية الكبيرة بشكل كبير في المقاييس الثانوية. في هذه الورقة، نستمر في تدريب PaLM باستخدام UL2R، مما يتيح لنا تقديم مجموعة جديدة من النماذج بحجم 8 مليار، 62 مليار، و540 مليار معلمة والتي نطلق عليها اسم U-PaLM. بشكل ملحوظ، عند الحجم 540 مليار، نظهر معدل توفير حسابي يبلغ حوالي ضعفين حيث يصل U-PaLM إلى نفس الأداء الذي حققه النموذج النهائي PaLM 540B بميزانية حسابية تقريبية أقل بنصف (أي توفير ما يقارب 4.4 مليون ساعة على وحدات المعالجة المتوازية TPUv4). نوضح أيضًا أن هذا المنحنى التوسيعي المحسن يؤدي إلى "قدرات ظاهرة" في مهمات BIG-Bench الصعبة - على سبيل المثال، يتفوق U-PaLM على PaLM في بعض المهام أو يظهر جودة أفضل بكثير عند حجم أصغر بكثير (62 مليار بدلاً من 540 مليار). بشكل عام، نوضح أن U-PaLM يتفوق على PaLM في العديد من السيناريوهات القليلة الطلقات، مثل مهام معالجة اللغة الطبيعية باللغة الإنجليزية (مثل الاستدلال الشائع والرد على الأسئلة)، ومهمات الاستدلال ذات السلسلة الفكرية (مثل GSM8K)، والمهمات متعددة اللغات (MGSM وTydiQA)، ومهمات MMLU والمهمات الصعبة في BIG-Bench. وأخيرًا، نقدم أمثلة نوعية تظهر القدرات الجديدة التي يتمتع بها U-PaLM في عمليات الملء الفردي والمتعدد الفواصل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تجاوز قوانين التوسع باستخدام 0.1% من الحوسبة الإضافية | مستندات | HyperAI