منذ 6 أشهر

الملخص

أثبتت نماذج التحويل (Transformers) فعاليتها في العديد من المهام المتعلقة معالجة اللغة الطبيعية (NLP). ومع ذلك، يتطلب تدريبها جهودًا كبيرة في تصميم مُحسِّنات متطورة وخطط معدلات التعلم بدقة (مثلاً، يفشل التدرج المعياري التقليدي SGD في تدريب نماذج Transformers بشكل فعّال). والهدف من هذا العمل هو فهم ما الذي يُعقّد تدريب نماذج Transformers من منظورين تجريبي ونظري. تُظهر تحليلاتنا أن التباين في التدرجات ليس السبب الجذري لعدم استقرار التدريب. بدلًا من ذلك، نُحدِّد تأثيرًا تضخميًا يؤثر بشكل كبير على التدريب: في كل طبقة ضمن نموذج Transformers متعدد الطبقات، يعتمد النموذج بشكل كبير على فرع التجميع (residual branch)، مما يؤدي إلى عدم استقرار التدريب، لأن هذا الاعتماد يُضخم التغيرات الصغيرة في المعاملات (مثلاً، تحديثات المعاملات)، ويُسبب اضطرابات كبيرة في مخرجات النموذج. ومع ذلك، نلاحظ أن الاعتماد الضعيف يُحد من الإمكانات التي يمتلكها النموذج، ويؤدي إلى نماذج مدربة ذات أداء أقل. مستوحين من هذا التحليل، نُقدِّم طريقة تُسمَّى Admin (التحديث التلقائي للتمهيد النموذجي - Adaptive model initialization)، والتي تهدف إلى تثبيت مرحلة التدريب المبكرة وتحرير الإمكانات الكاملة للنموذج في المراحل اللاحقة. أظهرت التجارب الواسعة أن Admin أكثر استقرارًا، ويتقارب أسرع، ويوفر أداءً أفضل. تم إتاحة التنفيذ في: https://github.com/LiyuanLucasLiu/Transforemr-Clinic.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار