HyperAIHyperAI

Command Palette

Search for a command to run...

دروس حول مشاركة المعلمات عبر الطبقات في النماذج التحويلية

Sho Takase Shun Kiyono

الملخص

نُقدّم طريقة مشاركة المعاملات لشبكات Transformer (Vaswani et al., 2017). تعتمد الطريقة المقترحة على تخفيف تقنية شائعة الاستخدام، تُشارك فيها المعاملات لطبقة واحدة مع جميع الطبقات، مثلما يُطبّق في نماذج Transformers الشاملة (Universal Transformers) (Dehghani et al., 2019)، بهدف زيادة الكفاءة في الزمن الحسابي. ونُقدّم ثلاث استراتيجيات: التسلسل (Sequence)، والدورة (Cycle)، والدورة العكسية (Cycle (rev))، لتعيين المعاملات لكل طبقة. تُظهر النتائج التجريبية أن الاستراتيجيات المقترحة فعّالة من حيث حجم المعاملات والزمن الحسابي. علاوةً على ذلك، نُشير إلى أن هذه الاستراتيجيات تكون فعّالة أيضًا في التكوينات التي تستخدم كميات كبيرة من البيانات التدريبية، مثلما هو الحال في المسابقات الحديثة مثل WMT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp