HyperAIHyperAI
منذ 3 أشهر

نماذج لغوية تمايزية مُقنّعة بسيطة وفعّالة

Subham Sekhar Sahoo, Marianne Arriola, Yair Schiff, Aaron Gokaslan, Edgar Marroquin, Justin T Chiu, Alexander Rush, Volodymyr Kuleshov
نماذج لغوية تمايزية مُقنّعة بسيطة وفعّالة
الملخص

بينما تُظهر نماذج التشتت مهارات عالية في إنتاج صور عالية الجودة، فإن الدراسات السابقة أشارت إلى فجوة أداء كبيرة بين نماذج التشتت والطرق التلقائية (AR) في نمذجة اللغة. في هذا العمل، نُظهر أن التشتت المنفصل المُقنَّع البسيط أكثر كفاءة مما كان يُعتقد سابقًا. نُطبّق وصفة تدريب فعّالة تُحسّن أداء نماذج التشتت المقنَّعة، ونُشتقّ هدفًا مبسطًا مُستندًا إلى تحسين راو-بلاكويل (Rao-Blackwellized)، مما يؤدي إلى تحسينات إضافية. يمتلك هذا الهدف شكلًا بسيطًا — وهو مزيج من خسائر نمذجة اللغة المقنَّعة الكلاسيكية — ويمكن استخدامه لتدريب نماذج لغة من نوع المُشفِّر الوحيد (encoder-only) التي تتيح عينات فعّالة، بما في ذلك تلك التي يمكنها إنتاج نصوص بأطوال عشوائية بشكل شبه تلقائي، تمامًا كما تفعل النماذج التقليدية لغة. على معايير نمذجة اللغة، تُحقق مجموعة من نماذج التشتت المقنَّعة، المدربة باستخدام ممارسات هندسية حديثة، حالة جديدة من الأداء القياسي بين نماذج التشتت، وتميل نحو مستوى التشتت التلقائي (AR) في قياس التباس (perplexity). نُطلق كودنا على الرابط التالي: https://github.com/kuleshov-group/mdlm

نماذج لغوية تمايزية مُقنّعة بسيطة وفعّالة | الأوراق البحثية | HyperAI