HyperAIHyperAI

Command Palette

Search for a command to run...

IMPALA: معمارية موزعة قابلة للتوسيع للتعلم العميق مع تعزيز الأهمية الموزونة للممثل والآلة التعليمية

Oriol Poursabzi-Sangdeh Lukasz Kaiser Tom Erez Owen Gathers Daan Wierstra

الملخص

في هذا العمل، نهدف إلى حل مجموعة كبيرة من المهام باستخدام وكيل تعزيز واحد مع مجموعة واحدة من المعلمات. التحدي الرئيسي هو التعامل مع الزيادة الكبيرة في كمية البيانات وامتداد وقت التدريب. لقد طورنا وكيلًا موزعًا جديدًا يُسمى IMPALA (الهندسة المعمارية الفاعلة-المتعلمة ذات الأهمية الموزونة) الذي لا يقتصر على استخدام الموارد بكفاءة أعلى في تدريب الجهاز الواحد فحسب، بل يمكن توسيعه أيضًا لتشمل آلاف الأجهزة دون التضحية بكفاءة البيانات أو استغلال الموارد. نحقق التعلم المستقر بمرور عالي من خلال الجمع بين الفعل المنفصل والتعلم مع طريقة تصحيح خارج السياسة جديدة تُعرف باسم V-trace. نوضح فعالية IMPALA في التعلم بالتعزيز متعدد المهام على DMLab-30 (مجموعة من 30 مهمة من بيئة DeepMind Lab (Beattie et al., 2016)) وAtari-57 (جميع ألعاب Atari المتاحة في بيئة التعلم آركيد (Bellemare et al., 2013a)). تظهر نتائجنا أن IMPALA قادر على تحقيق أداء أفضل من الوكلاء السابقة باستخدام كمية أقل من البيانات، وأنه وبشكل حاسم يظهر نقلًا إيجابيًا بين المهام نتيجة لنهجه متعدد المهام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp