HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 19 أيام

نماذج اللغة الانتشارية هي متعلمات فائقة للبيانات

Jinjie Ni Qian Liu Longxu Dou Chao Du Zili Wang Hang Yan Tianyu Pang Michael Qizhe Shieh

نماذج اللغة الانتشارية هي متعلمات فائقة للبيانات

الملخص

في ظل ظروف تدريب مُسبق صارمة ومحكومة بدقة، نلاحظ ظهور نقطة عبور: عندما تكون البيانات الفريدة محدودة، فإن نماذج اللغة المُتعدية (DLMs) تتفوق باستمرار على النماذج التوليدية التسلسلية (AR) عند التدريب لعدد أكبر من الدورات (epochs). وتتأخر نقطة العبور مع زيادة كمية البيانات أو تحسّن جودتها، بينما تتأخر أكثر مع نماذج أكبر، وتظل قائمة عبر المعمارية الكثيفة والمتفرقة. ونُعزى هذه المكاسب إلى عوامل ثلاث تترسخ تدريجيًا: (1) نمذجة البيانات بأي ترتيب، (2) الحوسبة الفائقة الكثافة الناتجة عن عملية إزالة الضوضاء التبادلية المتكررة، و(3) التكثيف المُدمج من نوع مونت كارلو؛ حيث تُحسّن الضوضاء في المدخلات أو المُعاملات الأداء في النماذج التوليدية التسلسلية في ظل قيود البيانات، لكنها لا تكفي لسد الفجوة. وبمقياس كبير، تفوق نموذج DLM بحجم 1.7 مليار مُعامل، تم تدريبه بموازنة حسابية تصل إلى ~1.5 تريليون رمز (token) على 10 مليار رمز فريدة من لغة بيثون، نموذجًا توليدياً تسلسلياً تم تدريبه بظروف مطابقة تمامًا. علاوةً على ذلك، حقق نموذج DLM بحجم 1 مليار مُعامل دقة تفوق 56% في مهمة HellaSwag، وفوق 33% في مهمة MMLU، باستخدام فقط 1 مليار رمز، دون أي تقنيات خاصة، بل من خلال تكرار بيانات التدريب المسبق الاعتيادية. ونُظهر أيضًا أن ارتفاع القيمة المُقاسة لدالة التحقق (validation cross-entropy) لا يعني بالضرورة تدهور الأداء في المهام اللاحقة في هذا السياق.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نماذج اللغة الانتشارية هي متعلمات فائقة للبيانات | الأوراق البحثية | HyperAI