HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة التفكير في ربط التضمين في نماذج اللغة المدربة مسبقًا

Hyung Won Chung*† Thibault Févry*† Henry Tsai Melvin Johnson Sebastian Ruder

الملخص

نعيد تقييم الممارسة القياسية المتمثلة في مشاركة الأوزان بين التضمينات الإدخالية والخروجية في نماذج اللغة المدربة مسبقًا ذات المستوى الرائد. نوضح أن التضمينات المنفصلة توفر مرونة نمذجية أكبر، مما يسمح لنا بتحسين كفاءة تخصيص المعلمات في التضمين الإدخالي للنماذج متعددة اللغات بشكل كبير. من خلال إعادة تخصيص معلمات التضمين الإدخالي في طبقات الـTransformer، نحقق أداءً أفضل بكثير على مهمات الفهم اللغوي القياسية بنفس عدد المعلمات أثناء التعديل الدقيق. كما نوضح أن تخصيص قدرة إضافية للتضمين الخرجي يوفر فوائد للنموذج تستمر حتى مرحلة التعديل الدقيق رغم أن التضمين الخرجي يتم التخلص منه بعد التدريب المسبق. تظهر تحليلاتنا أن التضمينات الخرجية الأكبر تحول دون امتلاك طبقات النموذج الأخيرة لخبرة زائدة في مهمة التدريب المسبق وتحفز تمثيلات الـTransformer على أن تكون أكثر عمومية وأكثر قابلية للنقل إلى مهام ولغات أخرى. من خلال الاستفادة من هذه النتائج، نتمكن من تدريب نماذج تحقق أداءً قويًا على مقاييس XTREME دون زيادة عدد المعلمات في مرحلة التعديل الدقيق.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp