Microsoft Mahjong AI-Dokument Veröffentlicht, Das Erstmals Technische Details Enthüllt

Erinnern Sie sich an die „Quack AI“ Suphx, die Microsoft im August letzten Jahres veröffentlicht hat? Vor Kurzem hat das Forschungsteam eine aktualisierte Version des Dokuments auf arXiv veröffentlicht, in der die Technologie hinter Suphx näher vorgestellt wird.
Am 29. August 2019 veröffentlichte Microsoft eine Mahjong-KI namens Suphx (Super Phoenix). Auf einer professionellen Mahjong-Wettkampfplattform übertraf Suphx‘ Stärke das durchschnittliche Niveau der besten menschlichen Spieler.
Nach seiner Veröffentlichung erregte Suphx große Aufmerksamkeit, nicht nur im Bereich der künstlichen Intelligenz, sondern auch bei vielen Mahjong-Enthusiasten, die kamen, um es anzuschauen und zu diskutieren.(Sie können auf diesen Artikel klicken, um „Die künstliche Intelligenz der Familie Hu kommt“ zu lesen.)

Es heißt, das System sei komplexer als AlphaGo, das professionelle Go-Spieler besiegte, und wird als „stärkste japanische Mahjong-künstliche Intelligenz“ gefeiert.
Heute veröffentlichte das Entwicklungsteam des Systems ein Papier auf arXiv Suphx: Mahjong mit Deep Reinforcement Learning meistern, in dem die Technologie hinter Suphx ausführlicher erklärt wird.

Adresse des Artikels: https://arxiv.org/pdf/2003.13590.pdf
Suphx wird immer stärker: Er hat 99.99%-Spieler übertroffen
Wie wir bereits vorgestellt haben, nutzte das Suphx-System Deep Reinforcement Learning, um aus 5.000 Spielen zu lernen und Erfahrungen zu sammeln, und besiegte viele Mahjong-Spieler auf Japans professioneller Mahjong-Wettkampfplattform „Tenho“.Höchstes Level der Plattform „Spezialraum“, 10. Level, erreicht.

Wie wurde eine so leistungsstarke Mahjong-KI entwickelt? Das Forschungsteam von Microsoft Research Asia, der Universität Kyoto, der University of Science and Technology of China, der Universität Tsinghua und der Universität Nankai hat in der neuesten Version des Dokuments eine ausführliche Einführung gegeben.
Aus dem Dokument haben wir auch erfahren, dass Suphx durch weiteres Lernen noch weiter verbessert werden kann. Auf der Plattform „Tianfeng“ mit mehr als 350.000 SpielernOffiziell wird ein Computerprogramm mit einer Punktzahl von über 99,99% als besser als andere Spieler eingestuft. Dies ist das erste Mal, dass ein Computerprogramm die meisten der besten menschlichen Mahjong-Spieler übertroffen hat.
Fünf Hauptmodelle und Verstärkungslernen schaffen Queshen AI
Suphx enthält eine Reihe von Convolutional Neural Networks,Es lernt fünf Modelle, um mit verschiedenen Szenarien umzugehen.Einschließlich Discard-Modell, Riichi-Modell, Chow-Modell, Pong-Modell und Kong-Modell.

Auf dieser Grundlage übernimmt Suphx eine weitereRegelbasierte Modelle,Um zu entscheiden, ob ein Gewinner erklärt und mit der nächsten Runde fortgefahren werden soll, prüfen Sie, ob die Gewinnerhand anhand der von den anderen Spielern abgelegten Karten oder anhand der von der Wand gezogenen Karten beurteilt werden kann.
Es wird berichtet, dass der Trainingsprozess von Suphx in drei Schritte unterteilt ist.
Zunächst werden die fünf Modelle mithilfe von Protokollen der besten menschlichen Spieler trainiert, die von der Tianfeng-Plattform gesammelt wurden.
Anschließend wird das System durch Self-Play-Reinforcement-Learning mithilfe eines CPU-basierten Mahjong-Simulators und einer GPU-basierten Inferenz-Engine zur Trajektoriengenerierung feinabgestimmt.
Schließlich wird bei Online-Spielen die Laufzeitrichtlinienoptimierung verwendet, um das Ergebnis der aktuellen Runde zu beobachten und so die Leistung des Systems zu verbessern.

Da die Informationen des Gegners im Mahjong-Spiel unbekannt sind, versuchte SuphxProphet-Coaching-Technologie zur Verbesserung der Effektivität des bestärkenden Lernens.Während der Trainingsphase des Selbstspiels werden verborgene Informationen verwendet, um die Trainingsrichtung des Modells zu steuern. Dadurch wird das Verständnis des KI-Modells für sichtbare Informationen verbessert und eine effektive Grundlage für Entscheidungen gefunden.
Auswertung: 5760 Treffer, 10 Datensätze
Vor den Experimenten trainierte das Team jedes Modell zwei Tage lang mit 1,5 Millionen Händen auf 44 GPUs (darunter vier Nvidia Titan XPs für Parameterserver und 40 K80s für selbstspielende Spieler).
Das Team hat Suphx auf 20 Nvidia Tesla K80 GPUs evaluiert. Um die Varianz der stabilen Rangfolge zu reduzieren, wählten sie zufällig 800.000 Mahjong-Spieldaten aus einem Datensatz von mehr als 1 Million Mahjong-Spielen aus und führten daraus 1.000 Stichproben durch.
Die Auswertungsergebnisse zeigen, dass auf der Tianfeng-Plattform dieNach mehr als 5760 Spielen stellte Suphx einen Rekord von zehn Abschnitten auf- Nur etwa 180 Spieler haben jemals dieses Level erreicht. Und Suphx Das stabile Ranking beträgt 8,74(Das höchste Level menschlicher Spieler ist 7,4).

Durch kontinuierliche Optimierung erreichte RL-2 schließlich eine bessere Leistung
Interessanterweise schrieben die Forscher, dass Suphx‘ Verteidigung „sehr stark“ war, mit einer geringen Wahrscheinlichkeit von 10,06%, und dass das Spiel einen eigenen Spielstil entwickelte, der es ihm ermöglichte, seine Karten sicher aufzubewahren und mit einem Half-Deuce zu gewinnen.

Gib den Sechser im Korb auf, da dieser bereits auf dem Tisch liegt
Darüber hinaus, so schrieben die Koautoren, weisen die meisten Probleme der realen Welt, etwa die Prognose von Finanzmärkten und die Optimierung der Logistik, Gemeinsamkeiten mit Mahjong auf. Zum Beispiel komplexe Betriebs-/Belohnungsregeln, Probleme mit unvollständigen Informationen usw.
Der Autor ist davon überzeugt, dass die in Suphx entwickelte Mahjong-Technologie, die die Vorhersage globaler Belohnungen, die Anleitung durch Propheten und die Anpassung von Richtlinien umfasst, großes Potenzial hat und in Zukunft in der realen Welt umfassend eingesetzt werden kann, um bei der Lösung realer und komplexer praktischer Probleme zu helfen.
Möchten Sie es nach dem Anschauen unbedingt ausprobieren? Tianfeng Mahjong-Kampfplattform:https://tenhou.net/, lass uns zusammen ein Spiel spielen!
-- über--