il y a 2 jours

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Résumé

L’obtention d’une coopération entre des agents à intérêts propres reste un défi fondamental dans l’apprentissage par renforcement multi-agents. Des travaux récents ont montré qu’il est possible d’induire une coopération mutuelle entre des agents « conscients de l’apprentissage », capables de prendre en compte et d’influencer les dynamiques d’apprentissage de leurs co-joueurs. Toutefois, les approches existantes reposent généralement sur des hypothèses prédéfinies, souvent incohérentes, concernant les règles d’apprentissage des co-joueurs, ou imposent une séparation stricte entre des « apprenants naïfs », qui mettent à jour leurs connaissances à des échelles de temps rapides, et des « méta-apprenants », qui observent ces mises à jour. Dans cet article, nous démontrons que les capacités d’apprentissage en contexte des modèles séquentiels permettent d’incorporer une prise de conscience des processus d’apprentissage des co-joueurs, sans nécessiter d’hypothèses prédéfinies ni de séparation explicite des échelles de temps. Nous montrons que l’entraînement d’agents basés sur des modèles séquentiels contre une distribution diversifiée de co-joueurs induit naturellement des stratégies de meilleure réponse en contexte, fonctionnant efficacement comme des algorithmes d’apprentissage à l’échelle rapide intra-épisode. Nous constatons que le mécanisme coopératif identifié dans des travaux antérieurs — où la vulnérabilité à l’extorsion entraîne une transformation mutuelle — émerge naturellement dans ce cadre : l’adaptation en contexte rend les agents vulnérables à l’extorsion, et la pression mutuelle pour influencer les dynamiques d’apprentissage en contexte des adversaires se traduit par l’apprentissage de comportements coopératifs. Nos résultats suggèrent que l’apprentissage décentralisé standard basé sur des modèles séquentiels, combiné à une diversité des co-joueurs, offre une voie évolutive pour l’apprentissage de comportements coopératifs.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 jours

Apprentissage Par Renforcement

Agent

Transformer

Approche/Framework

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 jours

Apprentissage Par Renforcement

Agent

Transformer

Approche/Framework

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

La coopération multi-agents par inférence contextuelle de co-joueur

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

La coopération multi-agents par inférence contextuelle de co-joueur

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

La coopération multi-agents par inférence contextuelle de co-joueur

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters