الملخص

بينما تُظهر نماذج التشتت مهارات عالية في إنتاج صور عالية الجودة، فإن الدراسات السابقة أشارت إلى فجوة أداء كبيرة بين نماذج التشتت والطرق التلقائية (AR) في نمذجة اللغة. في هذا العمل، نُظهر أن التشتت المنفصل المُقنَّع البسيط أكثر كفاءة مما كان يُعتقد سابقًا. نُطبّق وصفة تدريب فعّالة تُحسّن أداء نماذج التشتت المقنَّعة، ونُشتقّ هدفًا مبسطًا مُستندًا إلى تحسين راو-بلاكويل (Rao-Blackwellized)، مما يؤدي إلى تحسينات إضافية. يمتلك هذا الهدف شكلًا بسيطًا — وهو مزيج من خسائر نمذجة اللغة المقنَّعة الكلاسيكية — ويمكن استخدامه لتدريب نماذج لغة من نوع المُشفِّر الوحيد (encoder-only) التي تتيح عينات فعّالة، بما في ذلك تلك التي يمكنها إنتاج نصوص بأطوال عشوائية بشكل شبه تلقائي، تمامًا كما تفعل النماذج التقليدية لغة. على معايير نمذجة اللغة، تُحقق مجموعة من نماذج التشتت المقنَّعة، المدربة باستخدام ممارسات هندسية حديثة، حالة جديدة من الأداء القياسي بين نماذج التشتت، وتميل نحو مستوى التشتت التلقائي (AR) في قياس التباس (perplexity). نُطلق كودنا على الرابط التالي: https://github.com/kuleshov-group/mdlm

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار