HyperAIHyperAI
منذ 2 أشهر

طرق متوازية بشكل كبير للتعلم التعزيزي العميق

Arun Nair; Praveen Srinivasan; Sam Blackwell; Cagdas Alcicek; Rory Fearon; Alessandro De Maria; Vedavyas Panneershelvam; Mustafa Suleyman; Charles Beattie; Stig Petersen; Shane Legg; Volodymyr Mnih; Koray Kavukcuoglu; David Silver
طرق متوازية بشكل كبير للتعلم التعزيزي العميق
الملخص

نقدم أول هندسة معمارية موزعة على نطاق واسع للتعلم التعزيزي العميق. تستخدم هذه الهندسة المعمارية أربعة مكونات رئيسية: ممثلون متوازون ينشئون سلوكًا جديدًا؛ متعلمون متوازون يتم تدريبهم من الخبرة المخزنة؛ شبكة عصبية موزعة لتمثيل دالة القيمة أو سياسة السلوك؛ ومخزن خبرة موزع. استخدمنا هندستنا المعمارية لتنفيذ خوارزمية الشبكة العصبية العميقة Q (DQN). تم تطبيق خوارزميتنا الموزعة على 49 لعبة من ألعاب Atari 2600 في بيئة التعلم الأركيد، باستخدام نفس المعلمات الفائقة. أداؤنا تفوق على DQN غير الموزع في 41 من أصل 49 لعبة، كما قللنا من الوقت الحقيقي المطلوب لتحقيق هذه النتائج بمقدار عشري في معظم الألعاب.