HyperAIHyperAI
منذ 3 أشهر

فهم صعوبة تدريب نماذج Transformers

Liyuan Liu, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, Jiawei Han
فهم صعوبة تدريب نماذج Transformers
الملخص

أثبتت نماذج التحويل (Transformers) فعاليتها في العديد من المهام المتعلقة معالجة اللغة الطبيعية (NLP). ومع ذلك، يتطلب تدريبها جهودًا كبيرة في تصميم مُحسِّنات متطورة وخطط معدلات التعلم بدقة (مثلاً، يفشل التدرج المعياري التقليدي SGD في تدريب نماذج Transformers بشكل فعّال). والهدف من هذا العمل هو فهم ما الذي يُعقّد تدريب نماذج Transformers من منظورين تجريبي ونظري. تُظهر تحليلاتنا أن التباين في التدرجات ليس السبب الجذري لعدم استقرار التدريب. بدلًا من ذلك، نُحدِّد تأثيرًا تضخميًا يؤثر بشكل كبير على التدريب: في كل طبقة ضمن نموذج Transformers متعدد الطبقات، يعتمد النموذج بشكل كبير على فرع التجميع (residual branch)، مما يؤدي إلى عدم استقرار التدريب، لأن هذا الاعتماد يُضخم التغيرات الصغيرة في المعاملات (مثلاً، تحديثات المعاملات)، ويُسبب اضطرابات كبيرة في مخرجات النموذج. ومع ذلك، نلاحظ أن الاعتماد الضعيف يُحد من الإمكانات التي يمتلكها النموذج، ويؤدي إلى نماذج مدربة ذات أداء أقل. مستوحين من هذا التحليل، نُقدِّم طريقة تُسمَّى Admin (التحديث التلقائي للتمهيد النموذجي - Adaptive model initialization)، والتي تهدف إلى تثبيت مرحلة التدريب المبكرة وتحرير الإمكانات الكاملة للنموذج في المراحل اللاحقة. أظهرت التجارب الواسعة أن Admin أكثر استقرارًا، ويتقارب أسرع، ويوفر أداءً أفضل. تم إتاحة التنفيذ في: https://github.com/LiyuanLucasLiu/Transforemr-Clinic.

فهم صعوبة تدريب نماذج Transformers | الأوراق البحثية | HyperAI