HyperAIHyperAI
منذ 2 أشهر

Go-Explore: نهج جديد لمشكلات الاستكشاف الصعبة

Adrien Ecoffet; Joost Huizinga; Joel Lehman; Kenneth O. Stanley; Jeff Clune
Go-Explore: نهج جديد لمشكلات الاستكشاف الصعبة
الملخص

تعد الاستكشاف الذكي من التحديات الكبرى في تعلم التعزيز، خاصة عندما تكون المكافآت نادرة أو مضللة. تعمل لعبة "أتاري" مونتيزوما ريفينج (Montezuma's Revenge) وبيتفال (Pitfall) كمعيار للمجالات ذات الاستكشاف الصعب. حتى الآن، أدت الخوارزميات الحالية لتعلم التعزيز أداءً ضعيفًا在这两款游戏中,即使那些具有内在动机的算法也是如此,而内在动机是提高在困难探索领域中表现的主要方法。为了解决这一不足,我们引入了一种新的算法,称为 Go-Explore。该算法利用了以下原则:(1) 记住先前访问过的状态,(2) 首先返回到一个有希望的状态(无需探索),然后从该状态进行探索,(3) 通过任何可用手段(包括引入确定性)解决模拟环境,然后通过模仿学习来增强鲁棒性。这些原则的综合效果是在困难探索问题上的性能显著提升。في مونتيزوما ريفينج، يحقق Go-Explore متوسط ​​نقطة يتجاوز 43 ألف نقطة، وهو ما يقارب أربع مرات أفضل من أفضل الأداء السابق. يمكن لـ Go-Explore أيضًا استخدام المعرفة التي توفرها البشر في مجال معين، وعند زيادة قدراته بهذه المعرفة، يسجل متوسط ​​نقطة يتجاوز 650 ألف نقطة في مونتيزوما ريفينج. يصل أقصى أداء له إلى حوالي 18 مليون نقطة، مما يفوق الرقم القياسي العالمي البشري ويحقق حتى التعريف الأكثر صرامةً لأداء "فائق البشري" (superhuman). في بيتفال، يعد Go-Explore مع المعرفة المتخصصة أول خوارزمية تسجل أكثر من صفر نقطة. بمتوسط ​​نقطة يقارب 60 ألف نقطة، فإنه يتجاوز الأداء البشري للخبراء.بما أن Go-Explore يمكنه إنتاج عروض عالية الأداء بشكل تلقائي وبتكلفة زهيدة، فإنه يتخطى أيضًا أعمال التعلم بالتقليد حيث يقوم البشر بتقديم عروض الحلول. يقدم Go-Explore العديد من الاتجاهات البحثية الجديدة لتحسينه ولدمج أفكاره في الخوارزميات الحالية لتعلم التعزيز. قد يمكنه أيضًا تحقيق تقدم في المشكلات الصعبة ذات الاستكشاف غير القابل للحل سابقًا في العديد من المجالات، خاصة تلك التي تستفيد من المحاكاة أثناء التدريب (مثل الروبوتات).为了确保译文符合阿拉伯语的表达习惯并更加流畅,我进行了适当的调整和优化。以下是调整后的版本:إحدى التحديات الكبرى في مجال تعلم التعزيز هي الاستكشاف الذكي، خاصة عندما تكون المكافآت نادرة أو مضللة. تعمل لعبة "أتاري" مونتيزوما ريفينج (Montezuma's Revenge) وبيتفال (Pitfall) كمعيار للمجالات ذات الاستكشاف الصعب. حتى الآن، أدت الخوارزميات الحالية لتعلم التعزيز أداءً ضعيفًا在这两款游戏中,حتى تلك التي تعتمد على الدوافع الداخلية وهي الطريقة الرئيسية لتحسين الأداء في المجالات ذات الاستكشاف الصعب.لحل هذه النقصان، قدمنا خوارزمية جديدة تُسمى Go-Explore. تعتمد هذه الخوارزمية على المبادئ التالية: (1) حفظ الحالات السابقة التي تم زيارتها، (2) العودة أولًا إلى حالة واعدة (بدون استكشاف)، ثم بدء الاستكشاف منها، و(3) استخدام أي وسيلة متاحة (بما فيها إدخال العناصر الثابتة) لحل البيئات المحاكاة، ثم تعزيز الأداء عبر التعلم بالتقليد. نتيجة لهذه المبادئ مجتمعةً هو تحسين كبير في الأداء عند التعامل مع مشكلات الاستكشاف الصعبة.في لعبة مونتيزوما ريفينج، حققت خوارزمية Go-Explore معدل نقاط يزيد عن 43,000 نقطة، وهو ما يقارب أربعة أضعاف أفضل معدل نقاط سابق. كما يمكن لـ Go-Explore استخدام المعلومات المتخصصة التي توفرها البشر؛ وفي حال زيادة قدراته بهذه المعلومات,则实现了超过650,000点的平均得分在蒙特祖玛复仇中。其最高表现接近1800万分,超过了人类的世界纪录,并达到了“超人”表现的最严格定义。在游戏 Pitfall 中,Go-Explore 在结合领域知识后成为首个得分超过零的算法。它的平均得分接近60,000分,超过了专家级人类的表现。نظرًا لقدرة Go-Explore على إنتاج عروض عالية الأداء بشكل تلقائي وبتكلفة زهيدة,则它还超越了人类提供解决方案展示的模仿学习工作。Go-Explore 开启了许多新的研究方向以改进它并将它的见解融入当前的强化学习算法中。它还有可能在许多领域内实现对以前无法解决的困难探索问题的进步,特别是在训练过程中利用模拟器的领域(如机器人技术)。