التعلم العميق المتعدد المهام باستخدام PopArt

حققت المجتمعات البحثية في مجال التعلم التعزيزي تقدماً كبيراً في تصميم خوارزميات قادرة على تجاوز الأداء البشري في مهام معينة. ومع ذلك، يتم تدريب هذه الخوارزميات بشكل أساسي على مهمة واحدة في كل مرة، حيث يتطلب كل مهمة جديدة تدريب نسخة جديدة من العميل (agent). هذا يعني أن خوارزمية التعلم عامة، ولكن كل حل ليس كذلك؛ فكل عميل يمكنه فقط حل المهمة التي تم تدريبه عليها. في هذا العمل، ندرس مشكلة تعلم إتقان أكثر من مهمة قرار متسلسلة واحدة في آن واحد. إحدى القضايا العامة في التعلم المتعدد للمهام هي أنه يجب العثور على توازن بين احتياجات المهام المتعددة التي تنافس على الموارد المحدودة لنظام تعلم واحد. يمكن للعديد من خوارزميات التعلم أن تتعرض للتشتت بسبب بعض المهام ضمن مجموعة المهام المراد حلها. قد تكون هذه المهام أكثر وضوحاً بالنسبة لعملية التعلم، مثلًا بسبب كثافة أو حجم الجوائز داخل المهمة. هذا يسبب للخوارزمية التركيز على تلك المهام البارزة على حساب العمومية. نقترح تحويل مساهمة كل مهمة بشكل آلي لتحديثات العميل (agent's updates)، بحيث يكون لكل مهمة تأثير مشابه على ديناميكيات التعلم. وقد أدى هذا إلى تحقيق أفضل الأداء في تعلم لعب جميع الألعاب ضمن مجموعة مكونة من 57 لعبة أتاري متنوعة. وبشكل مثير للإعجاب، استطاعت طريquetنا تعليم سياسة مدربة واحدة - باستخدام مجموعة واحدة من الأوزان - التي تتجاوز الأداء البشري المتوسط. حسب علم us، كانت هذه هي المرة الأولى التي يتفوق فيها عميل واحد على مستوى الأداء البشري في هذا المجال المتعدد للمهام. كما أظهرت نفس النهج أفضل الأداء على مجموعة مكونة من 30 مهمة في منصة التعلم التعزيزي ثلاثية الأبعاد DeepMind Lab (منصة مختبرات DeepMind).