HyperAIHyperAI
منذ 9 أيام

التخطيط في البيئات العشوائية باستخدام نموذج مُدرَّب

{David Silver, Thomas K Hubert, Sherjil Ozair, Julian Schrittwieser, Ioannis Antonoglou}
التخطيط في البيئات العشوائية باستخدام نموذج مُدرَّب
الملخص

أثبت التعلم المعزز القائم على النماذج نجاحًا كبيرًا. ومع ذلك، فإن تعلُّم النموذج بشكل منفصل عن استخدامه أثناء التخطيط يُشكل مشكلة في البيئات المعقدة. حتى الآن، كانت التقنيات الأكثر فعالية هي تلك التي تدمج بين تعلُّم النماذج المكافئة للقيمة وطرق البحث القوية في الشجرة. ويُمثل هذا النهج مثالاً واضحاً على ميزرو، الذي حقق أداءً متفوقًا في مجموعة واسعة من المجالات، بدءًا من الألعاب اللوحية ووصولاً إلى البيئات الغنية بصريًا، سواءً كانت ذات فضاءات إجراءات منفصلة أو مستمرة، وفي بيئات مباشرة وخارجية. ولكن النسخ السابقة من هذا النهج كانت محدودة باستخدام نماذج محددة فقط. وهذا يحد من أدائها في البيئات التي تكون بطبيعتها عشوائية، أو جزئية الملاحظة، أو كبيرة جدًا ومعقدة لدرجة أنَّها تبدو عشوائية لوكيل محدود. في هذه الورقة، نوسع هذا النهج لكي يشمل تعلُّم النماذج العشوائية والتخطيط باستخدامها. وبشكل خاص، نقدم خوارزمية جديدة تُسمى "ميزرو العشوائية"، التي تتعلم نموذجًا عشوائيًا يُدمج فيه مفهوم "الحالة اللاحقة" (afterstates)، وتستخدم هذا النموذج لإجراء بحث عشوائي في الشجرة. وقد تحققت ميزرو العشوائية أداءً مماثلاً أو أفضل من الأفضل في مجموعة من البيئات القياسية أحادية ومتعددة الوكلاء، بما في ذلك لعبة 2048 والبلاك جامون، مع الحفاظ على نفس مستوى الأداء الذي تحققه ميزرو القياسية في لعبة غو.

التخطيط في البيئات العشوائية باستخدام نموذج مُدرَّب | أحدث الأوراق البحثية | HyperAI