HyperAIHyperAI

Command Palette

Search for a command to run...

مُعالجة التعميمات المكانية والزمنية لتمثيل الهدف

Mehdi Zadem Sergio Mover Sao Mai Nguyen

الملخص

تؤثر تمثيلات الهدف على أداء خوارزميات التعلم التدريبي الهرمي (HRL) من خلال تقسيم مشكلة التعلم المعقدة إلى مهام فرعية أكثر سهولة. تُظهر الدراسات الحديثة أن التمثيلات التي تحافظ على ديناميات البيئة المجردة زمنيًا تكون ناجحة في حل المشكلات الصعبة، وتوفر ضمانات نظرية لأفضلية الحلول. ومع ذلك، لا يمكن لهذه الأساليب التوسع في المهام التي تزداد فيها تعقيدات ديناميات البيئة، أي عندما تصبح العلاقات الانتقالية المجردة زمنيًا تعتمد على عدد أكبر من المتغيرات. من ناحية أخرى، حاولت جهود أخرى استخدام التبسيط المكاني لتقليل هذه المشكلات، لكنها تواجه قيودًا تتعلق بالتوسع في البيئات عالية الأبعاد، والتبعية للمعرفة المسبقة.في هذه الورقة، نقترح خوارزمية HRL ثلاثية الطبقات جديدة، تُدخل في مستويات مختلفة من الهرم كلاً من التبسيط المكاني والتبسيط الزمني للهدف. ونقدم دراسة نظرية لحدود الخسارة (regret bounds) للسياسات المُتعلمة. ونُقيّم النهج على مهام التحكم المستمر المعقدة، مما يُظهر فعالية التبسيط المكاني والزمني الذي تتعلمه هذه الطريقة. يمكن الاطلاع على الكود المفتوح المصدر من خلال الرابط التالي: https://github.com/cosynus-lix/STAR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُعالجة التعميمات المكانية والزمنية لتمثيل الهدف | مستندات | HyperAI