HyperAIHyperAI

Command Palette

Search for a command to run...

Optimisation De La Stratégie d'équilibrage De l'entropie Des Agents AEPO

Date

il y a 2 mois

Organization

Université Renmin de Chine
Technologie Kuaishou

Paper URL

2510.14545

L’optimisation de politiques à entropie équilibrée par agent (AEPO) a été proposée en octobre 2025 par une équipe de recherche conjointe de l’Université Renmin de Chine et de Kuaishou. Les résultats de cette recherche ont été publiés dans l’article « […] ».Optimisation de politique équilibrée en entropie par agent".

AEPO est un algorithme d'apprentissage par renforcement (RL) conçu pour équilibrer l'entropie lors des phases de déploiement et de mise à jour de la politique. Il se compose de deux éléments principaux : (1) un mécanisme d'extension d'équilibrage dynamique de l'entropie qui alloue de manière adaptative les budgets d'échantillonnage global et de branchement grâce à une pré-surveillance de l'entropie, tout en appliquant des pénalités de branchement aux appels d'outils successifs à haute entropie afin d'éviter une ramification excessive ; et (2) une optimisation de la politique d'équilibrage de l'entropie qui insère une opération d'arrêt du gradient dans les termes d'élagage à haute entropie afin de préserver et de redimensionner correctement les gradients sur les étiquettes à haute entropie, tout en intégrant une estimation de l'avantage tenant compte de l'entropie pour prioriser l'apprentissage des étiquettes à forte incertitude. Les résultats obtenus sur 14 jeux de données complexes démontrent qu'AEPO surpasse systématiquement 7 algorithmes RL classiques.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp