نماذج لغوية تمايزية مُقنّعة بسيطة وفعّالة

بينما تُظهر نماذج التشتت مهارات عالية في إنتاج صور عالية الجودة، فإن الدراسات السابقة أشارت إلى فجوة أداء كبيرة بين نماذج التشتت والطرق التلقائية (AR) في نمذجة اللغة. في هذا العمل، نُظهر أن التشتت المنفصل المُقنَّع البسيط أكثر كفاءة مما كان يُعتقد سابقًا. نُطبّق وصفة تدريب فعّالة تُحسّن أداء نماذج التشتت المقنَّعة، ونُشتقّ هدفًا مبسطًا مُستندًا إلى تحسين راو-بلاكويل (Rao-Blackwellized)، مما يؤدي إلى تحسينات إضافية. يمتلك هذا الهدف شكلًا بسيطًا — وهو مزيج من خسائر نمذجة اللغة المقنَّعة الكلاسيكية — ويمكن استخدامه لتدريب نماذج لغة من نوع المُشفِّر الوحيد (encoder-only) التي تتيح عينات فعّالة، بما في ذلك تلك التي يمكنها إنتاج نصوص بأطوال عشوائية بشكل شبه تلقائي، تمامًا كما تفعل النماذج التقليدية لغة. على معايير نمذجة اللغة، تُحقق مجموعة من نماذج التشتت المقنَّعة، المدربة باستخدام ممارسات هندسية حديثة، حالة جديدة من الأداء القياسي بين نماذج التشتت، وتميل نحو مستوى التشتت التلقائي (AR) في قياس التباس (perplexity). نُطلق كودنا على الرابط التالي: https://github.com/kuleshov-group/mdlm