التعلم القوي الخطي القائم على النموذج مع الديناميات المُعَدَّلة بمحفظة التفاؤل

التعلم القائم على النماذج للتعلم التكراري غير المُباشر (RL) يهدف إلى اكتشاف سياسة ذات مكافأة عالية، من خلال الاستفادة من مجموعة بيانات ثابتة مُجمعة مسبقًا ونموذج ديناميكي. وعلى الرغم من أن نموذج الديناميات يتم تعلمه من خلال إعادة استخدام المجموعة الثابتة، فإن قدرته على التعميم قد تعزز تعلم السياسة إذا استُخدمت بشكل مناسب. ولتحقيق ذلك، اقترح عدد من الدراسات كمية عدم اليقين في الديناميات المتنبأة، وتطبيقها صراحةً كعقاب على المكافأة. ولكن نظرًا لأن الديناميات والمكافأة هما عاملان مختلفان جوهريًا في سياق مسألة عملية القرار الماركوفية (MDP)، فإن تمثيل تأثير عدم اليقين في الديناميات من خلال عقاب على المكافأة قد يؤدي إلى تناقض غير متوقع بين استغلال النموذج وتجنب المخاطر. في هذا العمل، نحافظ بدلًا من ذلك على توزيع اعتقادات حول الديناميات، ونقيّم/نُحسّن السياسة من خلال عينات مُتحيزة مستمدة من هذا التوزيع. وتم استخلاص إجراء العينة، الذي يميل إلى التحدي، بناءً على صيغة لعبة ماركوف متعددة التبادل في التعلم غير المباشر. ونُظهر رسميًا أن العينة المُتحيزة تُنتج بشكل طبيعي توزيع اعتقادات مُحدّثًا للديناميات يحتوي على عامل إعادة توزين يعتمد على السياسة، ويُسمّى "توزيع الديناميات المُعدل بتوخي الحذر" (Pessimism-Modulated Dynamics Belief). ولتحسين السياسة، قمنا بتصميم خوارزمية تكرارية لتحسين السياسة المُنظّمة للعبة، مع ضمان تحسين مُستمر تحت شرط معين. ولجعلها قابلة للتطبيق عمليًا، طوّرنا خوارزمية تعلم تكراري غير مباشر لتقريب الحل. وأظهرت النتائج التجريبية أن النهج المقترح يحقق أداءً من الدرجة الأولى على مجموعة واسعة من المهام القياسية.