HyperAI

Publication D'un Article Sur L'ia De Microsoft Mahjong, Révélant Pour La Première Fois Des Détails Techniques

il y a 5 ans
Nouvelles des grandes usines
神经小兮
特色图像

Vous souvenez-vous du Suphx « Quack AI » sorti par Microsoft en août de l'année dernière ? Récemment, l'équipe de recherche a publié une version mise à jour de l'article sur arXiv, présentant davantage la technologie derrière Suphx.

Le 29 août 2019, Microsoft a publié une IA de mahjong appelée Suphx (Super Phoenix). Sur une plateforme de compétition de mahjong professionnelle, la force de Suphx a dépassé le niveau moyen des meilleurs joueurs humains.

Une fois sorti, Suphx a attiré une large attention, non seulement dans le domaine de l'intelligence artificielle, mais aussi de la part de nombreux passionnés de mahjong venus le regarder et en discuter.(Vous pouvez cliquer sur cet article pour consulter « L'intelligence artificielle de la famille Hu arrive »)

Le nombre et la taille moyenne des ensembles d'informations dans le Mahjong dépassent ceux du Bridge, du Texas Hold'em et du Go.

Les gens disent que le système est plus complexe qu'AlphaGo, qui a battu les joueurs de Go professionnels, et est salué comme « l'intelligence artificielle de Mahjong japonaise la plus puissante ».

Aujourd'hui, l'équipe de développement du système a publié un article sur arXiv Suphx : Maîtriser le mahjong grâce à l'apprentissage par renforcement profond, qui explique plus en détail la technologie derrière Suphx.

Suphx : Maîtriser le mahjong grâce à l'apprentissage par renforcement profond
Adresse de l'article : https://arxiv.org/pdf/2003.13590.pdf

Suphx devient de plus en plus fort : il a dépassé les 99 991 joueurs TP3T

Comme nous l'avons déjà présenté, le système Suphx a utilisé l'apprentissage par renforcement profond pour apprendre de 5 000 parties et acquérir de l'expérience, et a vaincu de nombreux joueurs de mahjong sur la plateforme de compétition de mahjong professionnelle japonaise « Tenho ».Obtention du niveau le plus élevé de la plateforme « Salle spéciale » niveau 10.

Le rang de Suphx sur la plateforme Tianfeng est bien supérieur à celui des autres IA de Mahjong

Comment une IA de mahjong aussi puissante a-t-elle été créée ? L'équipe de recherche de Microsoft Research Asia, de l'Université de Kyoto, de l'Université des sciences et technologies de Chine, de l'Université Tsinghua et de l'Université Nankai a fourni une introduction approfondie dans la dernière version de l'article.

D’après le document, nous avons également appris que Suphx pourra s’améliorer davantage grâce à un apprentissage plus approfondi. Sur la plateforme « Tianfeng » avec plus de 350 000 joueurs,Officiellement classé comme surpassant les joueurs au-dessus de 99,99%, c'est la première fois qu'un programme informatique surpasse la plupart des meilleurs joueurs humains de mahjong.

Cinq modèles majeurs et l'apprentissage par renforcement créent Queshen AI

Suphx contient une série de réseaux neuronaux convolutifs,Il apprend cinq modèles pour gérer différents scénarios.Y compris le modèle de rejet, le modèle Riichi, le modèle chow, le modèle Pong et le modèle Kong.

Le modèle de rejet (en haut) et l'architecture des quatre autres modèles (en bas)

Sur cette base, Suphx adopte une autreModèles basés sur des règles,Pour décider de déclarer un gagnant et de passer au tour suivant, vérifiez si la main gagnante peut être jugée à partir des cartes défaussées par les autres joueurs ou à partir des cartes tirées du mur.

Il est rapporté que le processus de formation de Suphx est divisé en trois étapes.

Tout d’abord, ses cinq modèles sont formés à l’aide des journaux des meilleurs joueurs humains collectés sur la plateforme Tianfeng.

Le système est ensuite affiné grâce à un apprentissage par renforcement en auto-jeu utilisant un simulateur de mahjong basé sur le processeur et un moteur d'inférence de génération de trajectoire basé sur le GPU.

Enfin, pendant les jeux en ligne, le réglage de la politique d'exécution est utilisé pour observer le résultat du tour en cours et ainsi améliorer les performances du système.

Système d'apprentissage par renforcement distribué dans Suphx

Comme les informations de l'adversaire sont inconnues dans le jeu de Mahjong, Suphx a essayéTechnologie de coaching Prophet pour améliorer l'efficacité de l'apprentissage par renforcement.Au cours de la phase d'entraînement en auto-jeu, des informations cachées sont utilisées pour guider la direction de l'entraînement du modèle, améliorant ainsi la compréhension des informations visibles par le modèle d'IA et trouvant une base de prise de décision efficace.

Évaluation : 5760 correspondances, 10 enregistrements

Avant les expériences, l'équipe a entraîné chaque modèle pendant deux jours en utilisant 1,5 million de mains sur 44 GPU (dont quatre Nvidia Titan XP pour les serveurs de paramètres et 40 K80 pour les joueurs autonomes).

L'équipe a évalué Suphx sur 20 GPU Nvidia Tesla K80. Afin de réduire la variance du classement stable, ils ont sélectionné au hasard 800 000 données de jeu de mahjong à partir d'un ensemble de données de plus d'un million de jeux de mahjong et ont effectué 1 000 échantillonnages à partir de celles-ci.

Les résultats de l’évaluation montrent que sur la plateforme Tianfeng, leAprès avoir joué plus de 5760 parties, Suphx a établi un record de dix sections- Seuls 180 joueurs environ ont atteint ce niveau. Et Suphx  Le classement stable est de 8,74(Le niveau le plus élevé des joueurs humains est 7,4).

Statistiques de classement stable final de l'agent d'apprentissage par renforcement
Grâce à une optimisation continue, RL-2 a finalement obtenu de meilleures performances 

Il est intéressant de noter que les chercheurs ont écrit que la défense de Suphx était « très forte », avec une faible probabilité de 10,06%, et qu'elle avait développé son propre style de jeu qui lui permettait de garder ses cartes en sécurité et de gagner avec un demi-deux.

Les joueurs IA (Sud) choisiront de jouer de manière conservatrice
Abandonnez le six-pole dans le panier car il est déjà sur la table

De plus, écrivent les coauteurs, la plupart des problèmes du monde réel tels que les prévisions des marchés financiers et l’optimisation logistique partagent des caractéristiques avec le Mahjong. Par exemple, des règles de fonctionnement/récompense complexes, des problèmes d’information imparfaite, etc.

L'auteur estime que la technologie Mahjong conçue dans Suphx, y compris la prédiction de récompense globale, les conseils du prophète et l'ajustement des politiques, a un grand potentiel et peut être largement utilisée dans le monde réel à l'avenir pour aider à résoudre des problèmes pratiques réels et complexes.

Après avoir vu cela, avez-vous hâte de l'essayer ? Plateforme de combat Tianfeng Mahjong :https://tenhou.net/, jouons à un jeu ensemble !

-- sur--