HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين سياسة عشوائية تعتمد على الجسيمات

Tie-Yan Liu Tao Qin Fangyun Wei Chang Liu Yuxuan Song Qiwei Ye

الملخص

تم تطبيق السياسات العشوائية على نطاق واسع بفضل خصائصها المتميزة في استكشاف الفضاء وتقدير عدم اليقين. وقد مكّن نمذجة توزيع السياسة من خلال توزيع الحالة-الإجراء المشترك ضمن العائلة الأسية من مرونة أكبر في الاستكشاف، وتمكين التعلم السياسي متعدد النماذج، كما أدخلت منظورًا احتماليًا في التعلم القوي العميق (RL). وتتيح العلاقة بين الاستنتاج الاحتمالي والتعلم القوي إمكانية الاستفادة من التطورات في أدوات التحسين الاحتمالي. ومع ذلك، تقتصر الجهود الحديثة على تقليل انحراف كولبوج-ليبلر العكسي (reverse KL divergence)، والذي يتميز بالبحث عن الثقة ويُمكن أن يُضعف المزايا المُتعلقة بالسياسة العشوائية. وللتمكُّن من الاستفادة الكاملة من إمكانات السياسات العشوائية وتوفير خصائص أكثر مرونة، هناك دافع قوي لاستكشاف قواعد تحديث مختلفة أثناء تحسين السياسة. في هذه الورقة، نقترح إطارًا جديدًا لتحسين السياسة الاحتمالية القائمة على الجسيمات، يُسمى ParPI، الذي يُمكّن من استخدام مجموعة واسعة من مقاييس التباعد أو المسافات، مثل مقاييس f-التباعد (f-divergences) ومسافة واسيرستاين (Wasserstein distance)، والتي يمكن أن تعزز سلوك السياسة العشوائية المُتعلّمة بشكل أفضل. وأظهرت التجارب في البيئات المباشرة (online) وغير المباشرة (offline) فعالية الخوارزمية المقترحة، إلى جانب خصائص المقاييس المختلفة لقياس الفجوة في تحسين السياسة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين سياسة عشوائية تعتمد على الجسيمات | مستندات | HyperAI