HyperAIHyperAI

Command Palette

Search for a command to run...

على كفاية التسخين غير المُعدَّل للتحسين التكيفي

Jerry Ma Denis Yarats

الملخص

تُستخدم خوارزميات التحسين التكيفية مثل Adam على نطاق واسع في التعلم العميق. وغالبًا ما يتم تحسين استقرار هذه الخوارزميات من خلال استخدام جدول تدريب مُسبق (warmup) ل معدل التعلم. ونظرًا لصعوبة اختيار وضبط جداول التدريب المسبق، اقترح العمل الأخير تصحيح التباين التلقائي لمعدل التعلم التكيفي في Adam، مدعياً أن هذا النهج المُعدّل (الذي يُعرف بـ "RAdam") يتفوق على خوارزمية Adam الأصلية ويقلل من الحاجة إلى ضبط مكلف لـ Adam باستخدام التدريب المسبق. في هذا العمل، ننفي هذا التحليل ونقدّم تفسيرًا بديلًا لضرورة التدريب المسبق بناءً على حجم حدث التحديث، والذي يكون أكثر صلة بالاستقرار أثناء التدريب. ثم نقدّم بعض جداول التدريب المسبق "بمبدأ القواعد العامة"، ونُظهر أن التدريب المسبق البسيط وغير المُعدّل لـ Adam يؤدي في الممارسات الشائعة إلى أداء مشابه تقريبًا لـ RAdam. ونختتم بتوصية للممارسين بالاعتماد على التدريب المسبق الخطي مع Adam، مع اقتراح أن يكون الافتراض الافتراضي المعقول هو التدريب المسبق الخطي خلال 2/(1β2)2 / (1 - β_2)2/(1β2) تكرارًا تدريبيًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp