Command Palette
Search for a command to run...
التعلم العميق الموزع: تعلم كيفية لعب ألعاب Atari في 21 دقيقة
التعلم العميق الموزع: تعلم كيفية لعب ألعاب Atari في 21 دقيقة
Igor Adamski; Robert Adamski; Tomasz Grel; Adam Jędrych; Kamil Kaczmarek; Henryk Michalewski
الملخص
نقدم دراسة في التعلم العميق الموزع (DDRL) تركز على قابلية توسيع خوارزمية التعلم التعزيزي العميق المتطورة المعروفة باسم Batch Asynchronous Advantage ActorCritic (BA3C). نوضح أن استخدام خوارزمية الأمثلة Adam مع حجم دفعة يصل إلى 2048 هو خيار قابل للتطبيق لتنفيذ حسابات التعلم الآلي على نطاق واسع. هذا، بالإضافة إلى إعادة فحص دقيقة لمعلميات الأمثلة، واستخدام التدريب المتزامن على مستوى العقد (مع الحفاظ على الجزء المحلي، ذو العقدة الواحدة من الخوارزمية غير متزامن)، وتقليل بصمة الذاكرة للنموذج، مكّننا من تحقيق توسع خطي حتى 64 عقدة معالجة مركزية (CPU). وهذا يتوافق مع وقت تدريب يبلغ 21 دقيقة على 768 نواة معالجة مركزية، مقابل 10 ساعات عند استخدام عقدة واحدة بـ 24 نواة تم تحقيقها بواسطة تنفيذ مرجعي لعقدة واحدة.