HyperAIHyperAI
il y a 11 jours

Réduction du biais de surévaluation dans les domaines multi-agents en utilisant des critics centralisés doubles

Johannes Ackermann, Volker Gabler, Takayuki Osa, Masashi Sugiyama
Réduction du biais de surévaluation dans les domaines multi-agents en utilisant des critics centralisés doubles
Résumé

De nombreuses tâches du monde réel nécessitent la collaboration de plusieurs agents. En réponse à ces défis, des méthodes d'apprentissage par renforcement multi-agents (RL) ont été récemment proposées, mais les approches actuelles peinent souvent à apprendre efficacement des politiques. Nous étudions donc la présence d’un défaut commun du RL mono-agent, à savoir le biais de surévaluation de la fonction de valeur, dans le cadre multi-agents. À partir de nos observations, nous proposons une approche visant à réduire ce biais en utilisant des critics centralisés doubles. Nous évaluons cette méthode sur six tâches mixtes coopératives-compétitives, démontrant un avantage significatif par rapport aux méthodes existantes. Enfin, nous explorons l’application des méthodes multi-agents à des tâches robotiques à haute dimension, et montrons que notre approche peut être utilisée pour apprendre des politiques décentralisées dans ce domaine.

Réduction du biais de surévaluation dans les domaines multi-agents en utilisant des critics centralisés doubles | Articles de recherche récents | HyperAI