تحسين سياسة عشوائية تعتمد على الجسيمات

تم تطبيق السياسات العشوائية على نطاق واسع بفضل خصائصها المتميزة في استكشاف الفضاء وتقدير عدم اليقين. وقد مكّن نمذجة توزيع السياسة من خلال توزيع الحالة-الإجراء المشترك ضمن العائلة الأسية من مرونة أكبر في الاستكشاف، وتمكين التعلم السياسي متعدد النماذج، كما أدخلت منظورًا احتماليًا في التعلم القوي العميق (RL). وتتيح العلاقة بين الاستنتاج الاحتمالي والتعلم القوي إمكانية الاستفادة من التطورات في أدوات التحسين الاحتمالي. ومع ذلك، تقتصر الجهود الحديثة على تقليل انحراف كولبوج-ليبلر العكسي (reverse KL divergence)، والذي يتميز بالبحث عن الثقة ويُمكن أن يُضعف المزايا المُتعلقة بالسياسة العشوائية. وللتمكُّن من الاستفادة الكاملة من إمكانات السياسات العشوائية وتوفير خصائص أكثر مرونة، هناك دافع قوي لاستكشاف قواعد تحديث مختلفة أثناء تحسين السياسة. في هذه الورقة، نقترح إطارًا جديدًا لتحسين السياسة الاحتمالية القائمة على الجسيمات، يُسمى ParPI، الذي يُمكّن من استخدام مجموعة واسعة من مقاييس التباعد أو المسافات، مثل مقاييس f-التباعد (f-divergences) ومسافة واسيرستاين (Wasserstein distance)، والتي يمكن أن تعزز سلوك السياسة العشوائية المُتعلّمة بشكل أفضل. وأظهرت التجارب في البيئات المباشرة (online) وغير المباشرة (offline) فعالية الخوارزمية المقترحة، إلى جانب خصائص المقاييس المختلفة لقياس الفجوة في تحسين السياسة.