HyperAIHyperAI

Command Palette

Search for a command to run...

استراتيجية تحسين موازنة إنتروبيا العميل AEPO

التاريخ

منذ 2 أشهر

المؤسسة

جامعة الشعب الصينية
تكنولوجيا كوايشو

رابط الورقة البحثية

2510.14545

في أكتوبر ٢٠٢٥، اقترح فريق بحثي مشترك من جامعة رينمين الصينية وجامعة كوايشو تحسين السياسات المتوازنة مع الإنتروبيا الفاعلية (AEPO). ونُشرت نتائج البحث ذات الصلة في ورقة بحثية بعنوان "[…]".تحسين السياسة المتوازنة مع الإنتروبيا الوكيلة".

AEPO هي خوارزمية تعلّم تعزيزي للوكيل (RL) مصممة لموازنة الإنتروبيا خلال مرحلتي نشر السياسات وتحديثها. تتكون من عنصرين أساسيين: (1) آلية تمديد ديناميكية لموازنة الإنتروبيا، تُخصص بشكل تكيفي ميزانيات أخذ العينات العالمية والفرعية من خلال مراقبة الإنتروبيا المسبقة، مع فرض عقوبات على الفروع على خطوات استدعاء الأدوات المتتالية عالية الإنتروبيا لمنع التفرع المفرط؛ و(2) تحسين سياسة موازنة الإنتروبيا، يُدرج عملية تدرج إيقاف في مصطلحات التقليم عالية الإنتروبيا للحفاظ على التدرجات وإعادة قياسها بشكل مناسب على العلامات عالية الإنتروبيا، مع دمج تقدير الميزة الواعي للإنتروبيا لإعطاء الأولوية لتعلم العلامات عالية عدم اليقين. تُظهر النتائج على 14 مجموعة بيانات صعبة أن AEPO يتفوق باستمرار على 7 خوارزميات تعلّم تعزيزي شائعة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp