HyperAI超神経

Hu Sanjia 人工知能が登場

特色图像

マイクロソフトは麻雀をプレイするための AI モデルをリリースし、プロの競技プラットフォームで最高ランクに到達することに成功しました。国を超え、世界中で人気を博すこのエンターテインメントにおいて、AI雀神の誕生にはどのような困難があったのか、そしてこの技術が誕生した深い意味とは何なのか。

先日開催された世界人工知能会議において、マイクロソフトはプロ麻雀競技プラットフォームにおいて、人間のトッププレイヤーの平均レベルを超える「雀神AI」を発表しました。

Suphx(フルネームはスーパーフェニックス)は、2019年3月に日本のプロ麻雀競技プラットフォーム「天鳳」にサービスを開始しました。

マイクロソフト グローバル エグゼクティブ バイス プレジデント シュン シャンヤン氏がその場で Suphx を紹介しました

この最も有名な麻雀プラットフォーム上で、AI が参加できる公開競技「帝シャンファン」において、Suphx は人間のプレイヤーと 5,000 回以上の四人麻雀ゲームをプレイし、徐々に自身の強さとレベルを示しました。

6月までに、Suphxは特別ルームの最高ランクである10ランクに到達しましたが、プラットフォームがAIシステムが最も高度なルームに入ることができなかったため、Suphxは11ランクの「Tianfeng Rank」に到達できませんでした。戦い。

2006 年の Tianfeng プラットフォームの立ち上げ以来、10 レベルに達した四人打ち麻雀プレイヤーは約 180 人いますが、現在 10 レベルに達している人間のプレイヤーは十数人しかいません。しかし、強さのレベルを示す安定ランクでは、Suphx は 8.7 に達し、人間の 10 位プレーヤーの 7.4 をはるかに上回りました。

Suphx は、Tianfeng プラットフォーム上のすべての AI の中で最高レベルです

以前、Tianfeng プラットフォームは、2015 年に東京大学がリリースした「Explosion」と、2018 年にドワンゴがリリースした「NAGA25」という他の 2 つの麻雀 AI システムでも稼働していましたが、どちらも安定したランクは 6.5 未満でした。サフェックスに大きく置き去りにされました。

数千年の歴史を持つ麻雀:ゆっくりと進化する大衆レジャー

「麻雀」または「雀」としても知られる麻雀は、本格的な中国の真髄です。

麻雀の起源については諸説あり、真偽は定かではありませんが、確かなことは、麻雀が誕生して以来、国民的娯楽事業として国民に親しまれ、長く続いてきたことです。

麻雀の前身は、漢時代の葉子劇牌にまで遡ることができます。

麻雀牌の記号や製造にも多くの変化があった 初期の麻雀牌。竹や動物の骨その後、トランプの時代がありました。

高級官僚の間では、麻雀牌の材料としてサイの角、象牙、金、銀、銅、青磁などが使われていました。当時の麻雀牌は、熟練した職人によって一つ一つ彫られていました。

LV、プラダ、エルメスなどの国際ブランドは、先進的なカスタマイズ麻雀を発表しました。

プラスチック製品の普及と機械化の発達により、麻雀が材料から大量生産されるようになったのは 1960 年になってからです。

しかし、生産プロセスの変化を除けば、AIを除けば麻雀における最先端の技術は自動麻雀機かもしれない。

AIのチート、すべては推理次第

AIが研究される以前は、麻雀は運が勝負を決めると多くの人が信じていました。しかし実際には、麻雀競技のルールは非常に複雑な問題です。

麻雀駒136枚順列と組み合わせから多くの結果が得られます、同じプレイヤーがプレイした 2 枚のカードの間には、他の 3 人のプレイヤーがプレイした混合カードと自分が引いたカードがあり、ダイナミックな変化を引き起こす「イート」、「タッチ」、「コング」もあります。ゲーム。

第二に、これは不完全な情報の問題。各プレイヤーは自分の手札の 13 枚のカードとプレイされたカードのみを知ることができ、他の人のカードと残りのカードは不明です。この隠された情報は多くの変数につながります。

いくつかのカード ゲームの複雑さの比較

経験豊富なプレイヤーでも難しい既知のカード間の論理的関係と最適なプレイ方法を明確にする、豊富な隠された情報により、ゲームの複雑さが増します。

そのためには、合計スコアで2位の選手に抜かれないように、不利な状況のときに4人目の選手が勝てるように戦略的に「シュート」するなど、全過程にわたる戦略的な計画が必要となります。

したがって、マスター麻雀 AI を構築したい場合は、強力な計算能力を備えているだけでは不十分です。直感、予測、推論そして曖昧な意思決定能力。

深層強化学習に頼って鳥の神になる

上記の課題に対し、Microsoft が深層強化学習を使用して作成した Suphx は、最新のアルゴリズムと段階的な学習とデバッグにより、競技麻雀で最強のプレイヤーに昇格しました。

雀神サフックスはこうやってやった

1つ目は「初期化」段階で、研究者らは「Tianfeng」プラットフォームの公開データを使用する。教師あり学習、初期モデルが取得され、そのモデルに基づいてセルフゲーム形式で強化学習トレーニングが実行されます。

続いて、不完全情報ゲームこの課題に対処するために、Suphx は強化学習の効果を向上させる予測コーチング テクノロジーを革新的に試みました。

トレーニング段階では、目に見えない隠された情報を使用してAIモデルのトレーニング方向を導き、その学習パスをより明確にし、完全な情報という意味で最適なパスに近づけ、それによってAIモデルの深い理解を促します。目に見える情報を確認し、効果的な戦略を見つけます。

古典的な検索ツリー構造、AI は相手の最大利益を最小限に抑えることを望んでいますが、麻雀ゲームには適用されません

さらに、麻雀の複雑なカード表現と得点メカニズムについては、総合的な予測テクノロジーを使用して、競技の各ラウンドと 8 ラウンド後の最終結果の間に橋渡しを行いました。

巧妙に設計された予測子、モデルは最終結果に対する各ラウンドの影響を理解できるため、意思決定に関するグローバルな視点。

研究チームはまた、カードゲームのプロセスを動的に制御できる新しいメカニズムを導入し、Suphxが推論段階で最新の情報に基づいて戦略を調整し、適応的な意思決定を行えるようにした。

最後のステップは実際の戦闘に参加することです。人間のプレイヤーの試合に継続的に参加することで、AI は学習を続けてスキルを向上させることができます。

この試合では、サフックスはワイルドカードだけでなくトリプルカードも持っていた。

3 月に Tianfeng プラットフォームに参入して以来、Suphx は常に進化してきました。現在、Suphx は、攻撃と防御のバランス、短期的な損失と長期的な利益の間のトレードオフを戦略的に完了し、入手可能な曖昧な情報に基づいて迅速な意思決定を行うことに関して、人間のトッププレイヤーよりも賢い戦略を実装することができます。

麻雀 AI: カードテーブルでの勝ち負けだけではない

新しいアルゴリズムとトレーニング技術のおかげで、Suphx はそのプレイとスタイルにおいてユニークです。

Tianfeng プラットフォームのトッププレイヤーは、ソーシャル メディアで Suphx を賞賛しました。彼は、Suphx の試合をたくさん見て、これまで見たことのない多くのテクニックを学んだように感じました。

また、Suphx で実践的な戦い方を学んだというプレイヤーも多く、「麻雀の教科書」「Suphx 先生」とも呼ばれています。

136 Zhang の麻雀がもたらす技術的インスピレーション

麻雀の勝ち負けは、一般人は運と経験の楽しみを楽しみますが、達人は知力の勝負を楽しみます。

このような「雀神」AI は、無敵の麻雀コーチを生み出すだけでなく、このエンターテイメントをデータ アルゴリズムの観点から分析することを可能にする新たな視点を開く可能性もあります。

ギャンブラーのように運に頼るのではなく、頭脳の力のオーラの下で、ランダムで不確実なものを徐々に脇に置いて、一連の勝利ルールを探求してください。

これは AI 開発への道における最も魅力的な光ではないでしょうか?

内容参照: Microsoft Research AI ヘッドライン「Microsoft Super Mahjong AI Suphx、不完全な情報ゲームをクラッキング」(https://mp.weixin.qq.com/s/S-axCx41WKDJG2BiGGTZfg)