التعلم القوي متعدد المهام مع التكامل اللين

التعلم متعدد المهام يُعد مشكلة صعبة للغاية في التعلم التعلّمي التفعيلي. وعلى الرغم من أن التدريب المشترك على عدة مهام يسمح للسياسات بتقاسم المعاملات عبر المهام المختلفة، فإن مشكلة التحسين تصبح غير بسيطة: لا يزال غير واضح ما هي المعاملات داخل الشبكة التي ينبغي إعادة استخدامها عبر المهام، وكيف يمكن أن تؤثر التدرجات الناتجة عن المهام المختلفة على بعضها البعض. لذلك، بدلًا من مشاركة المعاملات بشكل عشوائي عبر المهام، نقدم تقنية تفصيل صريحة في تمثيل السياسة لتخفيف هذه المشكلة في التحسين. بالاعتماد على شبكة سياسة أساسية، نصمم شبكة توجيه تقوم بتقدير استراتيجيات توجيه مختلفة لإعادة تهيئة الشبكة الأساسية لكل مهمة. بدلًا من اختيار مسارات مباشرة لكل مهمة، تستخدم سياسة المهمة المحددة طريقة تُسمى "التفصيل الناعم" لدمج جميع المسارات الممكنة بشكل ناعم، مما يجعلها مناسبة للمهام المتسلسلة. قمنا باختبار طريقتنا على مجموعة متنوعة من مهام التلاعب الروبوتي في المحاكاة، وأظهرنا أن طريقتنا تحسن بكثير كفاءة العينة والأداء مقارنةً بالأساليب القوية المُستخدمة كمراجع.