HyperAI초신경

마이크로소프트 마작 AI 논문 공개, 기술 세부 사항 최초 공개

5년 전
대형 공장 뉴스
神经小兮
特色图像

작년 8월 마이크로소프트가 출시한 "Quack AI" Suphx를 기억하시나요? 최근 연구팀은 arXiv에 논문의 업데이트된 버전을 공개하면서 Suphx의 기술을 더욱 자세히 소개했습니다.

2019년 8월 29일, 마이크로소프트는 Suphx(슈퍼 피닉스)라는 마작 AI를 출시했습니다. 전문적인 마작 경쟁 플랫폼에서 Suphx의 실력은 정상급 인간 플레이어의 평균 수준을 능가했습니다.

Suphx는 출시되자마자 인공지능 분야뿐만 아니라 이를 시청하고 토론하기 위해 찾아온 수많은 마작 매니아들의 주목을 받았습니다.(이 기사를 클릭하면 "후족의 인공지능이 온다"를 리뷰할 수 있습니다.)

마작의 정보 집합의 수와 평균 크기는 브리지, 텍사스 홀덤, 바둑보다 더 큽니다.

사람들은 이 시스템이 프로 바둑 기사를 이긴 알파고보다 더 복잡하다고 말하며, "일본 마작 인공지능 중 최강"이라고 칭송받고 있다.

오늘 시스템 개발팀이 arXiv에 논문을 게재했습니다. Suphx: 심층 강화 학습을 통한 마작 마스터하기Suphx의 기술을 더 자세히 설명합니다.

Suphx: 심층 강화 학습을 통한 마작 마스터하기
논문 주소: https://arxiv.org/pdf/2003.13590.pdf

Suphx는 점점 더 강해지고 있습니다. 그는 99,99% 플레이어를 넘어섰습니다.

앞서 소개한 바와 같이 Suphx 시스템은 심층 강화 학습을 사용하여 5,000개의 게임으로부터 학습하고 경험을 얻었으며, 일본의 프로 마작 대회 플랫폼 "Tenho"에서 많은 마작 플레이어를 이겼습니다.플랫폼 '스페셜 룸' 최고 레벨인 10단계를 달성했습니다.

Suphx의 Tianfeng 플랫폼 순위는 다른 Mahjong AI보다 훨씬 높습니다.

이렇게 강력한 마작 AI는 어떻게 만들어졌을까? Microsoft Research Asia, 교토 대학, 중국 과학기술대학, 청화 대학, 난카이 대학의 연구팀은 논문의 최신 버전에서 심층적인 소개를 제공했습니다.

또한, 이 논문을 통해 Suphx는 더 많은 학습을 통해 더욱 개선될 수 있다는 것을 알게 되었습니다. 35만 명 이상의 플레이어가 있는 "Tianfeng" 플랫폼에서공식적으로 99.99% 이상의 플레이어를 능가하는 것으로 평가되었으며, 컴퓨터 프로그램이 마작에서 대부분의 최상위 인간 플레이어를 능가한 것은 이번이 처음입니다.

5대 주요 모델과 강화학습으로 Queshen AI 탄생

Suphx에는 일련의 합성 신경망이 포함되어 있습니다.다양한 시나리오를 처리하기 위해 5가지 모델을 학습합니다.폐기 모델, 리치 모델, 차우 모델, 퐁 모델, 콩 모델 등이 있습니다.

폐기 모델(위)과 나머지 4개 모델의 아키텍처(아래)

이를 기반으로 Suphx는 또 다른 것을 채택합니다.규칙 기반 모델,승자를 선언하고 다음 라운드로 진행할지 여부를 결정하려면 다른 플레이어가 버린 카드나 벽에서 뽑은 카드로 승자를 판단할 수 있는지 확인하세요.

Suphx의 훈련 과정은 3단계로 나뉜다고 합니다.

첫째, 5개의 모델은 Tianfeng 플랫폼에서 수집된 최고 인간 플레이어의 로그를 사용하여 훈련되었습니다.

그런 다음 CPU 기반 마작 시뮬레이터와 GPU 기반 궤적 생성 추론 엔진을 사용하여 자체 플레이 강화 학습을 통해 시스템을 미세 조정합니다.

마지막으로, 온라인 게임 중에 런타임 정책 튜닝을 사용하여 현재 라운드의 결과를 관찰하고 이를 통해 시스템 성능을 향상시킵니다.

Suphx의 분산 강화 학습 시스템

마작 게임에서는 상대방의 정보가 알려지지 않기 때문에 Suphx는 시도했습니다.강화 학습의 효과를 높이기 위한 선지자 코칭 기술.셀프 게임 학습 단계에서는 숨겨진 정보를 활용하여 모델 학습 방향을 안내하고, 이를 통해 AI 모델이 가시적인 정보에 대한 이해를 높이고 효과적인 의사 결정 기반을 찾을 수 있도록 돕습니다.

평가: 5760개 매치, 10개 기록

실험에 앞서 연구팀은 44개 GPU(매개변수 서버용 Nvidia Titan XP 4개와 셀프 플레이 플레이어용 K80 40개 포함)에서 150만 개의 실습을 통해 각 모델을 2일간 훈련했습니다.

이 팀은 20개의 Nvidia Tesla K80 GPU에서 Suphx를 평가했습니다. 안정적인 순위의 분산을 줄이기 위해, 그들은 100만 개가 넘는 마작 게임의 데이터 세트에서 80만 개의 마작 게임 데이터를 무작위로 선택하고 그 중 1,000번의 샘플링을 수행했습니다.

평가 결과는 Tianfeng 플랫폼에서5760개 이상의 게임을 플레이한 후 Suphx는 10개 섹션의 기록을 세웠습니다.- 지금까지 이 레벨에 도달한 플레이어는 약 180명 정도입니다. 그리고 Suphx  안정된 순위는 8.74입니다.(인간 플레이어의 최고 레벨은 7.4입니다).

강화 학습 에이전트 최종 안정 순위 통계
지속적인 최적화를 통해 RL-2는 마침내 더 나은 성능을 달성했습니다. 

흥미로운 점은 연구자들이 Suphx의 수비가 "매우 강력"했으며, 확률이 10.06%로 낮았고, 카드를 안전하게 보호하고 하프 듀스로 이길 수 있는 고유한 플레이 스타일을 개발했다고 적었다는 것입니다.

AI 플레이어(남쪽)는 보수적으로 플레이하기로 선택할 것입니다.
바구니에 있는 6극은 이미 테이블 위에 있으므로 포기하세요.

게다가 공동 저자들은 금융 시장 예측이나 물류 최적화와 같은 대부분의 현실 세계 문제는 마작과 특성을 공유한다고 기술했습니다. 예를 들어, 복잡한 운영/보상 규칙, 불완전한 정보 문제 등입니다.

저자는 Suphx에서 설계된 마작 기술(전역 보상 예측, 예언자 안내, 정책 조정 포함)이 엄청난 잠재력을 가지고 있으며, 앞으로 실제 세계에서 널리 사용되어 실제적이고 복잡한 문제를 해결하는 데 도움이 될 수 있다고 믿습니다.

이걸 보고 나서, 꼭 한 번 시도해보고 싶으신가요? Tianfeng 마작 전투 플랫폼:https://tenhou.net/, 같이 게임해요!

-- 위에--