HyperAIHyperAI
منذ 2 أشهر

إعادة التفكير في ربط التضمين في نماذج اللغة المدربة مسبقًا

Hyung Won Chung; Thibault Févry; Henry Tsai; Melvin Johnson; Sebastian Ruder
إعادة التفكير في ربط التضمين في نماذج اللغة المدربة مسبقًا
الملخص

نعيد تقييم الممارسة القياسية المتمثلة في مشاركة الأوزان بين التضمينات الإدخالية والخروجية في نماذج اللغة المدربة مسبقًا ذات المستوى الرائد. نوضح أن التضمينات المنفصلة توفر مرونة نمذجية أكبر، مما يسمح لنا بتحسين كفاءة تخصيص المعلمات في التضمين الإدخالي للنماذج متعددة اللغات بشكل كبير. من خلال إعادة تخصيص معلمات التضمين الإدخالي في طبقات الـTransformer، نحقق أداءً أفضل بكثير على مهمات الفهم اللغوي القياسية بنفس عدد المعلمات أثناء التعديل الدقيق. كما نوضح أن تخصيص قدرة إضافية للتضمين الخرجي يوفر فوائد للنموذج تستمر حتى مرحلة التعديل الدقيق رغم أن التضمين الخرجي يتم التخلص منه بعد التدريب المسبق. تظهر تحليلاتنا أن التضمينات الخرجية الأكبر تحول دون امتلاك طبقات النموذج الأخيرة لخبرة زائدة في مهمة التدريب المسبق وتحفز تمثيلات الـTransformer على أن تكون أكثر عمومية وأكثر قابلية للنقل إلى مهام ولغات أخرى. من خلال الاستفادة من هذه النتائج، نتمكن من تدريب نماذج تحقق أداءً قويًا على مقاييس XTREME دون زيادة عدد المعلمات في مرحلة التعديل الدقيق.

إعادة التفكير في ربط التضمين في نماذج اللغة المدربة مسبقًا | أحدث الأوراق البحثية | HyperAI