HyperAIHyperAI
منذ 17 أيام

على كفاية التسخين غير المُعدَّل للتحسين التكيفي

Jerry Ma, Denis Yarats
على كفاية التسخين غير المُعدَّل للتحسين التكيفي
الملخص

تُستخدم خوارزميات التحسين التكيفية مثل Adam على نطاق واسع في التعلم العميق. وغالبًا ما يتم تحسين استقرار هذه الخوارزميات من خلال استخدام جدول تدريب مُسبق (warmup) ل معدل التعلم. ونظرًا لصعوبة اختيار وضبط جداول التدريب المسبق، اقترح العمل الأخير تصحيح التباين التلقائي لمعدل التعلم التكيفي في Adam، مدعياً أن هذا النهج المُعدّل (الذي يُعرف بـ "RAdam") يتفوق على خوارزمية Adam الأصلية ويقلل من الحاجة إلى ضبط مكلف لـ Adam باستخدام التدريب المسبق. في هذا العمل، ننفي هذا التحليل ونقدّم تفسيرًا بديلًا لضرورة التدريب المسبق بناءً على حجم حدث التحديث، والذي يكون أكثر صلة بالاستقرار أثناء التدريب. ثم نقدّم بعض جداول التدريب المسبق "بمبدأ القواعد العامة"، ونُظهر أن التدريب المسبق البسيط وغير المُعدّل لـ Adam يؤدي في الممارسات الشائعة إلى أداء مشابه تقريبًا لـ RAdam. ونختتم بتوصية للممارسين بالاعتماد على التدريب المسبق الخطي مع Adam، مع اقتراح أن يكون الافتراض الافتراضي المعقول هو التدريب المسبق الخطي خلال $2 / (1 - β_2)$ تكرارًا تدريبيًا.

على كفاية التسخين غير المُعدَّل للتحسين التكيفي | أحدث الأوراق البحثية | HyperAI