HyperAIHyperAI
منذ 2 أشهر

التحكم في أتاري، وجو، والشطرنج، والشوجي من خلال التخطيط باستخدام نموذج تم تعلمه

Julian Schrittwieser; Ioannis Antonoglou; Thomas Hubert; Karen Simonyan; Laurent Sifre; Simon Schmitt; Arthur Guez; Edward Lockhart; Demis Hassabis; Thore Graepel; Timothy Lillicrap; David Silver
التحكم في أتاري، وجو، والشطرنج، والشوجي من خلال التخطيط باستخدام نموذج تم تعلمه
الملخص

بناء الوكلاء الذين يتمتعون بقدرات التخطيط كان لفترة طويلة أحد التحديات الرئيسية في سعي البشرية لتحقيق الذكاء الاصطناعي. لقد حققت طرق التخطيط القائمة على الأشجار نجاحًا كبيرًا في مجالات صعبة مثل الشطرنج وجو، حيث يكون المحاكي المثالي متاحًا. ومع ذلك، في المشاكل الحقيقية، تكون الديناميكيات التي تحكم البيئة غالبًا معقدة وغير معروفة. في هذا العمل، نقدم خوارزمية MuZero التي تجمع بين البحث القائم على الأشجار والنموذج التعليمي، مما يحقق أداءً فائقًا للبشر في مجموعة متنوعة من المجالات الصعبة والم错قدة بصريًا، دون أي معرفة بالديناميكيات الأساسية لهذه البيئات. تقوم MuZero بتعلم نموذج يمكن تطبيقه بشكل تكراري للتنبؤ بالكميات الأكثر صلة مباشرة بالتخطيط: المكافأة، سياسة اختيار الإجراءات، ودالة القيمة. عند تقييمه على 57 لعبة مختلفة من ألعاب آتاري - وهي البيئة المرجعية لاختبار تقنيات الذكاء الاصطناعي، والتي عانت فيها طرق التخطيط القائمة على النماذج تاريخيًا - حقق خوارزميتنا الجديدة مستوى جديد من الفن (state of the art). عند تقييمه على جو والشطرنج والشوجي، بدون أي معرفة بقواعد اللعبة، تمكنت MuZero من تحقيق أداء فائق للبشر مماثل لأداء خوارزمية AlphaZero التي تم توفيرها بها قواعد اللعبة.