HyperAIHyperAI

Command Palette

Search for a command to run...

فهم صعوبة تدريب نماذج Transformers

Liyuan Liu Xiaodong Liu Jianfeng Gao Weizhu Chen Jiawei Han

الملخص

أثبتت نماذج التحويل (Transformers) فعاليتها في العديد من المهام المتعلقة معالجة اللغة الطبيعية (NLP). ومع ذلك، يتطلب تدريبها جهودًا كبيرة في تصميم مُحسِّنات متطورة وخطط معدلات التعلم بدقة (مثلاً، يفشل التدرج المعياري التقليدي SGD في تدريب نماذج Transformers بشكل فعّال). والهدف من هذا العمل هو فهم ما الذي يُعقّد تدريب نماذج Transformers من منظورين تجريبي ونظري. تُظهر تحليلاتنا أن التباين في التدرجات ليس السبب الجذري لعدم استقرار التدريب. بدلًا من ذلك، نُحدِّد تأثيرًا تضخميًا يؤثر بشكل كبير على التدريب: في كل طبقة ضمن نموذج Transformers متعدد الطبقات، يعتمد النموذج بشكل كبير على فرع التجميع (residual branch)، مما يؤدي إلى عدم استقرار التدريب، لأن هذا الاعتماد يُضخم التغيرات الصغيرة في المعاملات (مثلاً، تحديثات المعاملات)، ويُسبب اضطرابات كبيرة في مخرجات النموذج. ومع ذلك، نلاحظ أن الاعتماد الضعيف يُحد من الإمكانات التي يمتلكها النموذج، ويؤدي إلى نماذج مدربة ذات أداء أقل. مستوحين من هذا التحليل، نُقدِّم طريقة تُسمَّى Admin (التحديث التلقائي للتمهيد النموذجي - Adaptive model initialization)، والتي تهدف إلى تثبيت مرحلة التدريب المبكرة وتحرير الإمكانات الكاملة للنموذج في المراحل اللاحقة. أظهرت التجارب الواسعة أن Admin أكثر استقرارًا، ويتقارب أسرع، ويوفر أداءً أفضل. تم إتاحة التنفيذ في: https://github.com/LiyuanLucasLiu/Transforemr-Clinic.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp