HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم التعزيزي الأقصى للإنتروبيا من خلال التدفق المُعَيَّنِ بِحَسَبِ الطاقة

Chen-Hao Chao∗1,2 Chien Feng∗1 Wei-Fang Sun2 Cheng-Kuang Lee2 Simon See2 Chun-Yi Lee†1

الملخص

الطرق الحالية لتعلم التعزيز (RL) القائم على أقصى الانتروبيا (MaxEnt) للأماكن الفعلية المستمرة تُصاغ عادةً بناءً على إطار العمل الممثل بالمساعد والناقد وتتم تحسينها من خلال خطوات بديلة لتقييم السياسة وتحسين السياسة. في خطوات تقييم السياسة، يتم تحديث الناقد لتقديم دالة Q اللينة. وفي خطوات تحسين السياسة، يتم ضبط المساعد وفقًا للدالة Q اللينة المحدثة. في هذا البحث، نقدم إطارًا جديدًا لـ MaxEnt RL مبني باستخدام الجريان الطبيعي القائم على الطاقة (EBFlow). يدمج هذا الإطار خطوات تقييم السياسة وخطوات تحسين السياسة، مما يؤدي إلى عملية تدريب ذات هدف واحد. طريقتنا تمكّن من حساب دالة القيمة اللينة المستخدمة في هدف تقييم السياسة دون الحاجة إلى تقريب مونت كارلو. بالإضافة إلى ذلك، يدعم هذا التصميم نمذجة التوزيعات الفعلية متعددة الأوضاع مع تسهيل عيّنة الفعل بكفاءة. لتقدير أداء طريقتنا، أجرينا التجارب على مجموعة مقاييس MuJoCo وأعداد من المهام الروبوتية عالية البعد المحاكاة بواسطة Omniverse Isaac Gym. أظهرت نتائج التقييم أن طريقتنا حققت أداءً أفضل مقارنة بالأسس التقليدية التي يتم استخدامها على نطاق واسع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp