HyperAIHyperAI

Command Palette

Search for a command to run...

نماذج لغوية تمايزية مُقنّعة بسيطة وفعّالة

Subham Sekhar Sahoo Marianne Arriola Yair Schiff Aaron Gokaslan Edgar Marroquin Justin T Chiu Alexander Rush Volodymyr Kuleshov

الملخص

بينما تُظهر نماذج التشتت مهارات عالية في إنتاج صور عالية الجودة، فإن الدراسات السابقة أشارت إلى فجوة أداء كبيرة بين نماذج التشتت والطرق التلقائية (AR) في نمذجة اللغة. في هذا العمل، نُظهر أن التشتت المنفصل المُقنَّع البسيط أكثر كفاءة مما كان يُعتقد سابقًا. نُطبّق وصفة تدريب فعّالة تُحسّن أداء نماذج التشتت المقنَّعة، ونُشتقّ هدفًا مبسطًا مُستندًا إلى تحسين راو-بلاكويل (Rao-Blackwellized)، مما يؤدي إلى تحسينات إضافية. يمتلك هذا الهدف شكلًا بسيطًا — وهو مزيج من خسائر نمذجة اللغة المقنَّعة الكلاسيكية — ويمكن استخدامه لتدريب نماذج لغة من نوع المُشفِّر الوحيد (encoder-only) التي تتيح عينات فعّالة، بما في ذلك تلك التي يمكنها إنتاج نصوص بأطوال عشوائية بشكل شبه تلقائي، تمامًا كما تفعل النماذج التقليدية لغة. على معايير نمذجة اللغة، تُحقق مجموعة من نماذج التشتت المقنَّعة، المدربة باستخدام ممارسات هندسية حديثة، حالة جديدة من الأداء القياسي بين نماذج التشتت، وتميل نحو مستوى التشتت التلقائي (AR) في قياس التباس (perplexity). نُطلق كودنا على الرابط التالي: https://github.com/kuleshov-group/mdlm


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp