HyperAI

Des chercheurs du MIT et de plusieurs universités américaines ont démontré que les algorithmes de gradient de politique, des méthodes générales d’entraînement de réseaux de neurones, surpassent les algorithmes spécialisés en théorie des jeux dans des environnements à information incomplète. Présentés en avril à la conférence ICLR à Rio de Janeiro, ces travaux invalident une hypothèse de longue date selon laquelle les approches théoriques classiques étaient systématiquement les plus performantes pour les compétitions à somme nulle où les joueurs disposent d’informations partielles. L’équipe a conçu un benchmark unifié pour évaluer objectivement ces stratégies. Plutôt que de développer une nouvelle méthode, elle propose un terrain de test standardisé mesurant l’exploitabilité, un indicateur quantifiant la vulnérabilité d’une stratégie face à un adversaire optimal. Les expériences ont porté sur cinq jeux à information cachée, incluant des variantes du morpion, du Hex et du Liar’s Dice, avec des espaces d’état atteignant 30 milliards de configurations. Pour contourner les limites computationnelles habituelles, les chercheurs ont adapté les mesures de performance afin de rendre l’analyse réalisable sans supercalculateur. Les résultats indiquent que les réseaux entraînés par gradient de politique obtiennent des scores d’exploitabilité inférieurs et remportent systématiquement les confrontations directes face aux algorithmes théoriques. Cette performance s’explique par la capacité du gradient à s’ajuster continuellement aux mouvements imprévisibles de l’adversaire, une dynamique que les modèles théoriques peinent à capturer en temps réel. Le logiciel de benchmark est open source et s’intègre directement à la bibliothèque OpenSpiel pour fonctionner sur un ordinateur standard. Ces conclusions dépassent le cadre du jeu vidéo et s’appliquent à toute interaction stratégique multisociétaire caractérisée par l’incertitude, tels que les négociations commerciales, les marchés financiers ou les opérations militaires. Des spécialistes de l’industrie, y compris des chercheurs de Google DeepMind, saluent cette étude pour avoir prouvé que le perfectionnement d’algorithmes classiques reste une voie particulièrement efficace pour résoudre des problèmes stratégiques complexes. Les outils développés sont désormais accessibles gratuitement à la communauté scientifique.

Liens associés

Liens associés

Liens associés

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Command Palette

Les algorithmes généralistes battent la théorie des jeux

Liens associés

Command Palette

Les algorithmes généralistes battent la théorie des jeux

Liens associés

Command Palette

Les algorithmes généralistes battent la théorie des jeux

Liens associés

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.