il y a 6 mois

Résumé

De nombreuses tâches du monde réel nécessitent la collaboration de plusieurs agents. En réponse à ces défis, des méthodes d'apprentissage par renforcement multi-agents (RL) ont été récemment proposées, mais les approches actuelles peinent souvent à apprendre efficacement des politiques. Nous étudions donc la présence d’un défaut commun du RL mono-agent, à savoir le biais de surévaluation de la fonction de valeur, dans le cadre multi-agents. À partir de nos observations, nous proposons une approche visant à réduire ce biais en utilisant des critics centralisés doubles. Nous évaluons cette méthode sur six tâches mixtes coopératives-compétitives, démontrant un avantage significatif par rapport aux méthodes existantes. Enfin, nous explorons l’application des méthodes multi-agents à des tâches robotiques à haute dimension, et montrons que notre approche peut être utilisée pour apprendre des politiques décentralisées dans ce domaine.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Apprentissage Par Renforcement

Agent

Apprentissage Automatique

Domaine De Recherche

Approche/Framework

Johannes Ackermann Volker Gabler Takayuki Osa Masashi Sugiyama

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Apprentissage Par Renforcement

Agent

Apprentissage Automatique

Domaine De Recherche

Approche/Framework

Johannes Ackermann Volker Gabler Takayuki Osa Masashi Sugiyama

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Réduction du biais de surévaluation dans les domaines multi-agents en utilisant des critics centralisés doubles

Johannes Ackermann Volker Gabler Takayuki Osa Masashi Sugiyama

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réduction du biais de surévaluation dans les domaines multi-agents en utilisant des critics centralisés doubles

Johannes Ackermann Volker Gabler Takayuki Osa Masashi Sugiyama

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réduction du biais de surévaluation dans les domaines multi-agents en utilisant des critics centralisés doubles

Johannes Ackermann Volker Gabler Takayuki Osa Masashi Sugiyama

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters