تحليل التقطيع السياسي في التعلم متعدد المهام والتعلم التكراري المعزز في Meta-World

تُقسّم عملية التقطيع التحكّمي (Policy Distillation) عملية اتخاذ القرار ماركوفية (Markov Decision Process) إلى أجزاء فرعية مختلفة، وتتعلم سياسات خبراء في كل قسم من هذه الأجزاء على حدة، قبل دمجها في سياسة واحدة تغطي الفضاء الكامل. ويشبه ذلك كيف أن فريق رياضي يضم مراكز مختلفة، حيث يساهم كل لاعب بقدراته الخاصة في تحقيق النجاح الجماعي. تعتمد عملية التقطيع التحكّمي على البنية المميزة لعملية اتخاذ القرار ماركوفية من خلال تعلّم خبراء محليين مخصصين لكل قسم، دون الحاجة إلى التعميم على نطاق واسع. عند دمج هذه الخبرات في سياسة عالمية واحدة، فإن كل خبير يساهم بالخصائص المُتعلّمة من قسمه الخاص. وباعتمادًا على الجزء الذي يواجهه الفعل العالمي من فضاء الحالة، يمكنه الاستفادة من الخصائص المكتسبة من السياسة المحلية الخاصة بذلك القسم.تتشابه مجالات التعلّم التحكّمي الميتا (Meta-reinforcement learning) والتعلّم متعدد المهام (multi-task learning) بشكل كبير. فبينما يهدف التعلّم التحكّمي الميتا إلى حل مهام جديدة بسرعة بناءً على الخبرة السابقة، يركّز التعلّم متعدد المهام أكثر على قدرة الخوارزمية على التعميم على مجموعة واسعة من المهام في آنٍ واحد. ومع ذلك، فإن النجاح في التعلّم الميتا غالبًا ما يكون مرتبطًا بأداء أفضل في التعلّم متعدد المهام، والعكس صحيح. فالوكيل الذي يمكنه التكيّف السريع مع مهمة جديدة، يكون بتعريفه أكثر كفاءة في تعلّم تلك المهمة؛ وبالمثل، فإن الوكيل الذي تمكّن من التعميم على عدد كبير من المهام، يكون غالبًا أكثر قدرة على التعلّم السريع عند مواجهة مهمة جديدة لكنها ذات صلة. وبما أن كلا المجالين يتكوّنان من العديد من المهام الفردية، فإن كليهما يناسبان بشكل طبيعي تقسيم فضاء الحالة. وقد أظهرت عملية التقطيع التحكّمي إمكانات واعدة في التعلّم متعدد المهام، لكن النتائج محدودة وغير مُدرَّسة بشكل واسع. ونُجري في هذا العمل دراسة لتطبيق خوارزمية التقطيع التحكّمي "انقسم واحكم" (Divide-and-Conquer) على معيار "ميتا وورلد" (Meta-World).يُعدّ "انقسم واحكم" (DnC) خوارزمية تقطيع تحكّمي تستخدم سياقًا (context) لتمثيل المعلومات المتعلقة بتقسيم فضاء الحالة. بناءً على هذه السياقات، يتم تدريب السياسات المحلية مع قيود مبنية على انحراف كولبوج-ليبلر (KL divergence) للحفاظ على تشابهها المتبادل. ثم تُدمج هذه السياسات المحلية في سياسة عالمية واحدة باستخدام قيد آخر مبني على انحراف كولبوج-ليبلر.يُعدّ "ميتا وورلد" (Meta-World) معيارًا جديدًا للتعلّم متعدد المهام والتعلّم التحكّمي الميتا. نحلّل أداء خوارزمية DnC على كلا المعيارين: المعيار التحكّمي الميتا (ML) والمعيار متعدد المهام (MT)، باستخدام خوارزمية "تحسين السياسة بالمنطقة الموثوقة" (Trust-Region Policy Optimization - TRPO) كمقياس مرجعي. بالنسبة للمعيار التحكّمي الميتا (ML)، نقوم بتقسيم فضاء الحالة حسب المهام الفردية لخوارزمية DnC. أثناء التدريب الميتا، نستخدم المهام التدريبية كأقسام لـ DnC، دون استخدام المهام الاختبارية. وبعد اكتمال تدريب السياسة العالمية، نطبّقها على المهام الاختبارية لقياس المكافآت النهائية ونسبة النجاح. أما بالنسبة للمعيار متعدد المهام (MT)، فإننا نُقسّم فضاء الحالة مرة أخرى حسب المهام الفردية، ولكن دون وجود مهام محفوظة (held-out tasks) — إذ يتدرب DnC على جميع المهام ويُختبر عليها. كما أن كل مهمة فردية تحتوي على حالات هدف متغيرة، ما يعني أن السياسات المحلية يجب أن تتعلّم كيفية التكيّف مع هذه الحالات المتغيرة. ويجب أن تتعلم السياسة العالمية ليس فقط حل المهام التدريبية المختلفة، بل أيضًا التكيّف مع حالات الهدف المختلفة داخل كل مهمة.نجد أن DnC تحقق نفس الأداء مقارنةً بالأساسية TRPO في معيار التعلّم التحكّمي الميتا. وعند تقسيم فضاء الحالة إلى المهام الفردية، تكون السياسات المحلية قادرة على تعلّم حل كل مهمة فردية بنجاح بمعدل يقارب 4-5%. والسياسة العالمية المكوّنة من هذه السياسات الخبرائية الفردية تحقق نفس مستوى الأداء ونسبة النجاح. أما في معيار التعلّم متعدد المهام، فقد حققت DnC نسب نجاح تقارب 65%. ونعتقد أن هذا يعود إلى أن DnC هي خوارزمية تقطيع تحكّمي، وأن بيئات الاختبار في التعلّم متعدد المهام تتضمّن نفس المهام في المراحل التدريبية والاختبارية، ما يسمح لـ DnC بتذكّر كل مهمة فردية، وبالتالي الأداء الجيد في جميع المهام أثناء الاختبار. ولكن في حالة التعلّم التحكّمي الميتا، يصبح من الصعب على DnC التكيّف مع مهام جديدة أثناء الاختبار، وبالتالي يكون أداؤها أقل بكثير من الأداء المطلوب.