HyperAIHyperAI
منذ 11 أيام

مُعالجة التعميمات المكانية والزمنية لتمثيل الهدف

Mehdi Zadem, Sergio Mover, Sao Mai Nguyen
مُعالجة التعميمات المكانية والزمنية لتمثيل الهدف
الملخص

تؤثر تمثيلات الهدف على أداء خوارزميات التعلم التدريبي الهرمي (HRL) من خلال تقسيم مشكلة التعلم المعقدة إلى مهام فرعية أكثر سهولة. تُظهر الدراسات الحديثة أن التمثيلات التي تحافظ على ديناميات البيئة المجردة زمنيًا تكون ناجحة في حل المشكلات الصعبة، وتوفر ضمانات نظرية لأفضلية الحلول. ومع ذلك، لا يمكن لهذه الأساليب التوسع في المهام التي تزداد فيها تعقيدات ديناميات البيئة، أي عندما تصبح العلاقات الانتقالية المجردة زمنيًا تعتمد على عدد أكبر من المتغيرات. من ناحية أخرى، حاولت جهود أخرى استخدام التبسيط المكاني لتقليل هذه المشكلات، لكنها تواجه قيودًا تتعلق بالتوسع في البيئات عالية الأبعاد، والتبعية للمعرفة المسبقة.في هذه الورقة، نقترح خوارزمية HRL ثلاثية الطبقات جديدة، تُدخل في مستويات مختلفة من الهرم كلاً من التبسيط المكاني والتبسيط الزمني للهدف. ونقدم دراسة نظرية لحدود الخسارة (regret bounds) للسياسات المُتعلمة. ونُقيّم النهج على مهام التحكم المستمر المعقدة، مما يُظهر فعالية التبسيط المكاني والزمني الذي تتعلمه هذه الطريقة. يمكن الاطلاع على الكود المفتوح المصدر من خلال الرابط التالي: https://github.com/cosynus-lix/STAR.

مُعالجة التعميمات المكانية والزمنية لتمثيل الهدف | أحدث الأوراق البحثية | HyperAI