マイクロソフト麻雀AIの論文が公開、技術詳細が初公開

昨年8月にマイクロソフトがリリースした「雀神AI」Suphxをまだ覚えていますか?最近、研究チームは arXiv で論文の更新版をリリースし、Suphx の背後にあるテクノロジーをさらに紹介しました。
2019 年 8 月 29 日、マイクロソフトは、プロ麻雀競技プラットフォーム上で、Suphx (スーパー フェニックス) と呼ばれる麻雀 AI をリリースしました。Suphx の強さは、人間のトップ プレイヤーの平均レベルを超えました。
当時リリースされた Suphx は、人工知能の分野だけでなく、多くの麻雀愛好家が見に来て議論するなど、広く注目を集めました。(この記事をクリックすると、「胡三家の人工知能がやってくる」をレビューできます)

このシステムは、プロ棋士を破り「日本最強の人工知能」と呼ばれるAlphaGoよりも複雑だとの声もある。
本日、システムの研究開発チームが arXiv に関する論文を発表しました。 「Suphx: 深層強化学習で麻雀をマスターする」Suphx の背後にあるテクノロジーについて詳しく説明しています。

論文アドレス: https://arxiv.org/pdf/2003.13590.pdf
Suphx は戦うたびに勇敢になります: 99.99% プレイヤーを超えました
Suphx システムは、深層強化学習を使用して 5,000 局の経験を学習し、日本のプロ麻雀競技プラットフォーム「天鳳」で多くの雀士を破ったことを以前紹介しました。プラットフォーム「スペシャルルーム」で最高ランクの10位を獲得する。

このような強力な麻雀 AI はどのようにして作られるのでしょうか? Microsoft Research Asia、京都大学、中国科学技術大学、清華大学、南開大学の研究チームが、最新版の論文で詳細な紹介を行った。
論文からは、さらなる研究により、Suphx のレベルがさらに向上したこともわかります。 35万人以上のプレイヤーが参加する「Tianfeng」プラットフォームでは、99.99% 以上のプレイヤーとして公式に評価されており、コンピューター プログラムが麻雀のトッププレイヤーのほとんどを超えたのはこれが初めてです。
Queshen AI を作成する 5 つの主要なモデルと強化学習
Suphx には一連の畳み込みニューラル ネットワークが含まれており、さまざまなシナリオを処理するために 5 つのモデルを学習しました。ディスカード(廃棄モデル)、理一モデル、チョウモデル、ポンモデル、コングモデルを含む。

これに基づいて、Suphx は別の機能を使用します。ルールベースのモデル、勝者を宣言して次のラウンドに進むかどうかを決定するには、他のプレイヤーが捨てたカード、または壁から引いたカードから勝者カードが判断できるかどうかを確認します。
報告によると、Suphx のトレーニングプロセスは 3 つのステップに分かれています。
まず、その 5 つのモデルは、「Tianfeng」プラットフォームから収集されたトッププレイヤーのログを使用してトレーニングされます。
次に、CPU ベースの麻雀シミュレーターと GPU ベースの軌道生成推論エンジンのセットを使用した自己ゲーム強化学習を通じてシステムを微調整します。
最後に、オンライン プレイ中に、ランタイム ポリシー調整を使用して現在のラウンドの結果を観察し、システムのパフォーマンスを向上させます。

麻雀ゲームでは相手の情報が分からないのでSuphxが挑戦してみました強化学習の効果を向上させるための預言的なコーチング手法。セルフゲームのトレーニング段階では、隠された情報を使用してモデルのトレーニングの方向性を導き、それによって AI モデルの目に見える情報の理解を強化し、効果的な意思決定の根拠を見つけます。
評価: 5760試合、10の記録を樹立
実験に先立って、チームは 44 個の GPU (パラメーター サーバー用の 4 台の Nvidia Titan XP とセルフゲーミング プレーヤー用の 40 台の K80 を含む) で 150 万のハンドを使用して、各モデルで 2 日間のテストを実施しました。
チームは、20 個の Nvidia Tesla K80 GPU で Suphx を評価しました。安定したランキングのばらつきを小さくするために、100 万以上の麻雀ゲームのデータセットから 80 万件の麻雀ゲーム データをランダムに選択し、1,000 回サンプリングしました。
評価結果は、「Tianfeng」プラットフォームと人間のプレイヤーでの評価です。5760 以上のゲームをプレイした後、Suphx は 10 レベルの記録を樹立しました- これまでにこのレベルに到達したプレイヤーは約 180 人だけです。そしてサファックス 安定順位は8.74セグメント(人間のプレイヤーの最高レベルは 7.4 です)。

継続的な最適化により、RL-2 は最終的により優れたパフォーマンスを達成しました
興味深いことに、研究者らは、Suphx の防御は「非常に強力」であり、ワイルドカードをプレイする確率は 10.06% と非常に低く、カードを安全に保ち、セミデュースで勝つことができる独自のプレイスタイルを開発していると書いています。 。

6 つのシリンダーはすでにテーブルの上にあるので、バスケット内の 6 つのシリンダーを捨てます。
さらに、論文の共著者らは、金融市場の予測や物流の最適化といった現実世界の問題のほとんどは麻雀と共通の特徴を持っていると書いている。複雑な運営・報酬ルール、不完全な情報の問題など。
著者は、グローバルな報酬予測、予言的ガイダンス、政策調整を含む、Suphx で設計された麻雀テクノロジーには大きな可能性があり、現実の複雑な現実的な問題の解決に役立つために、将来現実世界で広く使用できると考えています。
これを見て、あなたも試してみたくなりますか?天鳳麻雀バトルプラットフォーム:https://tenhou.net/、一緒にラウンドしましょう!
- 以上 -