Command Palette
Search for a command to run...
استراتيجية تحسين موازنة إنتروبيا العميل AEPO
في أكتوبر ٢٠٢٥، اقترح فريق بحثي مشترك من جامعة رينمين الصينية وجامعة كوايشو تحسين السياسات المتوازنة مع الإنتروبيا الفاعلية (AEPO). ونُشرت نتائج البحث ذات الصلة في ورقة بحثية بعنوان "[…]".تحسين السياسة المتوازنة مع الإنتروبيا الوكيلة".
AEPO هي خوارزمية تعلّم تعزيزي للوكيل (RL) مصممة لموازنة الإنتروبيا خلال مرحلتي نشر السياسات وتحديثها. تتكون من عنصرين أساسيين: (1) آلية تمديد ديناميكية لموازنة الإنتروبيا، تُخصص بشكل تكيفي ميزانيات أخذ العينات العالمية والفرعية من خلال مراقبة الإنتروبيا المسبقة، مع فرض عقوبات على الفروع على خطوات استدعاء الأدوات المتتالية عالية الإنتروبيا لمنع التفرع المفرط؛ و(2) تحسين سياسة موازنة الإنتروبيا، يُدرج عملية تدرج إيقاف في مصطلحات التقليم عالية الإنتروبيا للحفاظ على التدرجات وإعادة قياسها بشكل مناسب على العلامات عالية الإنتروبيا، مع دمج تقدير الميزة الواعي للإنتروبيا لإعطاء الأولوية لتعلم العلامات عالية عدم اليقين. تُظهر النتائج على 14 مجموعة بيانات صعبة أن AEPO يتفوق باستمرار على 7 خوارزميات تعلّم تعزيزي شائعة.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.