HyperAIHyperAI
منذ 3 أشهر

دروس حول مشاركة المعلمات عبر الطبقات في النماذج التحويلية

Sho Takase, Shun Kiyono
دروس حول مشاركة المعلمات عبر الطبقات في النماذج التحويلية
الملخص

نُقدّم طريقة مشاركة المعاملات لشبكات Transformer (Vaswani et al., 2017). تعتمد الطريقة المقترحة على تخفيف تقنية شائعة الاستخدام، تُشارك فيها المعاملات لطبقة واحدة مع جميع الطبقات، مثلما يُطبّق في نماذج Transformers الشاملة (Universal Transformers) (Dehghani et al., 2019)، بهدف زيادة الكفاءة في الزمن الحسابي. ونُقدّم ثلاث استراتيجيات: التسلسل (Sequence)، والدورة (Cycle)، والدورة العكسية (Cycle (rev))، لتعيين المعاملات لكل طبقة. تُظهر النتائج التجريبية أن الاستراتيجيات المقترحة فعّالة من حيث حجم المعاملات والزمن الحسابي. علاوةً على ذلك، نُشير إلى أن هذه الاستراتيجيات تكون فعّالة أيضًا في التكوينات التي تستخدم كميات كبيرة من البيانات التدريبية، مثلما هو الحال في المسابقات الحديثة مثل WMT.