HyperAIHyperAI
منذ 17 أيام

التعميم الإجرائي من خلال التخطيط باستخدام نماذج عالم ذاتية التدريب

Ankesh Anand, Jacob Walker, Yazhe Li, Eszter Vértes, Julian Schrittwieser, Sherjil Ozair, Théophane Weber, Jessica B. Hamrick
التعميم الإجرائي من خلال التخطيط باستخدام نماذج عالم ذاتية التدريب
الملخص

إحدى الوعود الرئيسية لتعلم التقويم القائم على النماذج هي القدرة على التعميم باستخدام نموذج داخلي للعالم لتقديم تنبؤات في بيئات ومهام جديدة. ومع ذلك، فإن قدرة الوكلاء القائمين على النماذج على التعميم لم تُفهم جيدًا، نظرًا لأن الدراسات السابقة ركزت على الوكلاء القائمة على التعلم الحر من النموذج عند تقييم التعميم. في هذا العمل، نقيس صراحة قدرة الوكلاء القائمين على النماذج على التعميم مقارنة بزملائهم القائمين على التعلم الحر من النموذج. نركز تحليلنا على موديل زيرو (MuZero) (Schrittwieser et al., 2020)، وهو وكيل قائم على النماذج قوي، ونقيم أداؤه في التعميم الإجرائي والتعميم المهامي. نحدد ثلاثة عوامل تُسهم في التعميم الإجرائي: التخطيط، والتعلم التلقائي للتمثيلات، وتعددية بيانات الإجراءات، ونُظهر أنه من خلال دمج هذه التقنيات، نحقق أداءً متفوقًا على مستوى الحالة الحالية في التعميم والكفاءة في استخدام البيانات على مجموعة بيانات Procgen (Cobbe et al., 2019). ومع ذلك، نجد أن هذه العوامل لا تُقدّم دائمًا نفس الفوائد في معايير التعميم المهامي ضمن بيئة Meta-World (Yu et al., 2019)، مما يشير إلى أن عملية الانتقال (transfer) لا تزال تمثل تحديًا، وقد تتطلب نهجًا مختلفًا عن التعميم الإجرائي. بشكل عام، نقترح أن بناء وكلاء قادرين على التعميم يتطلب التحول بعيدًا عن النموذج الوحيد المُخصص للمهمة والقائم على التعلم الحر من النموذج، نحو وكلاء قائمين على النماذج ذاتية التدريب (self-supervised) يتم تدريبهم في بيئات غنية ومتعددة المهام وإجرائية.

التعميم الإجرائي من خلال التخطيط باستخدام نماذج عالم ذاتية التدريب | أحدث الأوراق البحثية | HyperAI