Command Palette
Search for a command to run...
La coopération multi-agents par inférence contextuelle de co-joueur
La coopération multi-agents par inférence contextuelle de co-joueur
Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans
Résumé
L’obtention d’une coopération entre des agents à intérêts propres reste un défi fondamental dans l’apprentissage par renforcement multi-agents. Des travaux récents ont montré qu’il est possible d’induire une coopération mutuelle entre des agents « conscients de l’apprentissage », capables de prendre en compte et d’influencer les dynamiques d’apprentissage de leurs co-joueurs. Toutefois, les approches existantes reposent généralement sur des hypothèses prédéfinies, souvent incohérentes, concernant les règles d’apprentissage des co-joueurs, ou imposent une séparation stricte entre des « apprenants naïfs », qui mettent à jour leurs connaissances à des échelles de temps rapides, et des « méta-apprenants », qui observent ces mises à jour. Dans cet article, nous démontrons que les capacités d’apprentissage en contexte des modèles séquentiels permettent d’incorporer une prise de conscience des processus d’apprentissage des co-joueurs, sans nécessiter d’hypothèses prédéfinies ni de séparation explicite des échelles de temps. Nous montrons que l’entraînement d’agents basés sur des modèles séquentiels contre une distribution diversifiée de co-joueurs induit naturellement des stratégies de meilleure réponse en contexte, fonctionnant efficacement comme des algorithmes d’apprentissage à l’échelle rapide intra-épisode. Nous constatons que le mécanisme coopératif identifié dans des travaux antérieurs — où la vulnérabilité à l’extorsion entraîne une transformation mutuelle — émerge naturellement dans ce cadre : l’adaptation en contexte rend les agents vulnérables à l’extorsion, et la pression mutuelle pour influencer les dynamiques d’apprentissage en contexte des adversaires se traduit par l’apprentissage de comportements coopératifs. Nos résultats suggèrent que l’apprentissage décentralisé standard basé sur des modèles séquentiels, combiné à une diversité des co-joueurs, offre une voie évolutive pour l’apprentissage de comportements coopératifs.