HyperAI

تم إصدار ورقة بحثية حول لعبة Mahjong AI من Microsoft، تكشف عن التفاصيل الفنية لأول مرة

منذ 5 أعوام
أخبار المصانع الكبيرة
神经小兮
特色图像

هل تتذكرون Suphx "Quack AI" الذي أصدرته شركة مايكروسوفت في أغسطس من العام الماضي؟ أصدر فريق البحث مؤخرًا نسخة محدثة من الورقة البحثية على arXiv، مما أدى إلى مزيد من التعريف بالتكنولوجيا وراء Suphx.

في 29 أغسطس 2019، أصدرت شركة مايكروسوفت الذكاء الاصطناعي للعبة الماهجونغ والذي يسمى Suphx (Super Phoenix). على منصة المنافسة المهنية للماهجونغ، تجاوزت قوة Suphx المستوى المتوسط لأفضل اللاعبين البشريين.

بمجرد إصدارها، جذبت Suphx اهتمامًا واسع النطاق، ليس فقط في مجال الذكاء الاصطناعي، ولكن أيضًا من العديد من عشاق لعبة الماهجونغ الذين جاءوا لمشاهدتها ومناقشتها.(يمكنك النقر على هذه المقالة لمراجعة "الذكاء الاصطناعي لعائلة هو قادم")

يتجاوز عدد ومتوسط حجم مجموعات المعلومات في لعبة الماهجونغ تلك الموجودة في لعبة البريدج، وتكساس هولديم، وجو.

ويقول الناس إن النظام أكثر تعقيدًا من AlphaGo، الذي هزم لاعبي Go المحترفين، ويُشاد به باعتباره "أقوى ذكاء اصطناعي في لعبة Mahjong اليابانية".

اليوم، نشر فريق تطوير النظام ورقة بحثية على arXiv Suphx: إتقان لعبة ماجونغ باستخدام التعلم التعزيزي العميق، والذي يوضح التكنولوجيا وراء Suphx بمزيد من العمق.

Suphx: إتقان لعبة ماجونغ باستخدام التعلم التعزيزي العميق
عنوان الورقة: https://arxiv.org/pdf/2003.13590.pdf

Suphx يصبح أقوى وأقوى: لقد تجاوز 99.991 لاعبًا في TP3T

كما ذكرنا سابقًا، استخدم نظام Suphx التعلم التعزيزي العميق للتعلم من 5000 لعبة واكتساب الخبرة، وهزم العديد من لاعبي الماهجونغ على منصة المنافسة الاحترافية للماهجونغ في اليابان "Tenho".تم الحصول على أعلى مستوى من منصة "الغرفة الخاصة" المستوى العاشر.

رتبة Suphx على منصة Tianfeng أعلى بكثير من رتبة الذكاء الاصطناعي Mahjong الأخرى

كيف تم إنشاء الذكاء الاصطناعي القوي في لعبة الماهجونغ؟ قدم فريق البحث من مايكروسوفت ريسيرش آسيا، وجامعة كيوتو، وجامعة العلوم والتكنولوجيا في الصين، وجامعة تسينغهوا، وجامعة نانكاي، مقدمة مفصلة في أحدث نسخة من الورقة البحثية.

ومن خلال الورقة، تعلمنا أيضًا أن Suphx سيكون قادرًا على التحسن بشكل أكبر مع المزيد من التعلم. على منصة "Tianfeng" التي تضم أكثر من 350 ألف لاعب،تم تصنيفه رسميًا على أنه يتفوق على اللاعبين الذين يزيد عددهم عن 99.99%، وهذه هي المرة الأولى التي يتفوق فيها برنامج كمبيوتر على معظم اللاعبين البشريين المتميزين في لعبة الماهجونغ.

خمسة نماذج رئيسية والتعلم التعزيزي يخلقان Queshen AI

يحتوي Suphx على سلسلة من الشبكات العصبية التلافيفية،ويتعلم خمسة نماذج للتعامل مع السيناريوهات المختلفة.بما في ذلك نموذج التخلص، ونموذج ريتشي، ونموذج تشاو، ونموذج بونج، ونموذج كونغ.

نموذج الاستبعاد (أعلى) وهندسة النماذج الأربعة الأخرى (أسفل)

وعلى هذا الأساس، تتبنى Suphx مبدأ آخرالنماذج القائمة على القواعد،لتحديد ما إذا كان سيتم إعلان الفائز والانتقال إلى الجولة التالية، تحقق مما إذا كان من الممكن الحكم على اليد الفائزة من خلال البطاقات التي تم التخلص منها من قبل اللاعبين الآخرين، أو من البطاقات المسحوبة من الحائط.

يُقال أن عملية تدريب Suphx تنقسم إلى ثلاث خطوات.

أولاً، يتم تدريب نماذجها الخمسة باستخدام سجلات أفضل اللاعبين البشريين التي تم جمعها من منصة Tianfeng.

يتم بعد ذلك ضبط النظام من خلال التعلم التعزيزي الذاتي باستخدام محاكي ماجونغ يعتمد على وحدة المعالجة المركزية ومحرك استنتاج توليد المسار يعتمد على وحدة معالجة الرسومات.

أخيرًا، أثناء الألعاب عبر الإنترنت، يتم استخدام ضبط سياسة وقت التشغيل لمراقبة نتيجة الجولة الحالية وبالتالي تحسين أداء النظام.

نظام التعلم التعزيزي الموزع في Suphx

نظرًا لأن معلومات الخصم غير معروفة في لعبة الماهجونغ، حاول Suphxاستخدام تقنية تدريب النبي لتحسين فعالية التعلم التعزيزي.أثناء مرحلة تدريب اللعبة الذاتية، يتم استخدام المعلومات المخفية لتوجيه اتجاه تدريب النموذج، وبالتالي تعزيز فهم نموذج الذكاء الاصطناعي للمعلومات المرئية وإيجاد أساس فعال لاتخاذ القرار.

التقييم: 5760 مباراة، 10 سجلات

قبل إجراء التجارب، قام الفريق بتدريب كل نموذج لمدة يومين باستخدام 1.5 مليون عملية يدوية على 44 وحدة معالجة رسومية (بما في ذلك أربعة أجهزة Nvidia Titan XP لخوادم المعلمات و40 جهاز K80 للاعبين الذين يلعبون ذاتيًا).

قام الفريق بتقييم Suphx على 20 وحدة معالجة رسومية من نوع Nvidia Tesla K80. ومن أجل تقليل تباين التصنيف المستقر، قاموا باختيار 800 ألف من بيانات لعبة الماهجونغ بشكل عشوائي من مجموعة بيانات تضم أكثر من مليون لعبة ماهجونغ، وأجروا 1000 عينة منها.

تظهر نتائج التقييم أنه على منصة Tianfeng،بعد لعب أكثر من 5760 لعبة، حقق Suphx رقمًا قياسيًا بعشرة أقسام- حوالي 180 لاعبًا فقط وصلوا إلى هذا المستوى. و Suphx  الترتيب المستقر هو 8.74(أعلى مستوى للاعبين البشر هو 7.4).

إحصائيات التصنيف النهائي المستقر لوكيل التعلم المعزز
من خلال التحسين المستمر، تمكن RL-2 أخيرًا من تحقيق أداء أفضل 

ومن المثير للاهتمام أن الباحثين كتبوا أن دفاع Suphx كان "قويًا للغاية"، مع احتمالية منخفضة تبلغ 10.06%، كما طور أسلوب لعب خاصًا به سمح له بالحفاظ على أوراقه آمنة والفوز بنصف 2.

سيختار لاعبو الذكاء الاصطناعي (الجنوب) اللعب بشكل متحفظ
التخلي عن الستة أقطاب في السلة لأنها موجودة بالفعل على الطاولة

وعلاوة على ذلك، كتب المؤلفون المشاركون أن معظم المشاكل في العالم الحقيقي مثل التنبؤ بالسوق المالية وتحسين الخدمات اللوجستية تشترك في خصائص مع لعبة ماجونغ. على سبيل المثال، قواعد التشغيل/المكافأة المعقدة، ومشاكل المعلومات غير الكاملة، وما إلى ذلك.

يعتقد المؤلف أن تقنية Mahjong المصممة في Suphx، بما في ذلك التنبؤ بالمكافأة العالمية، وتوجيه الأنبياء، وتعديل السياسات، لديها إمكانات كبيرة ويمكن استخدامها على نطاق واسع في العالم الحقيقي في المستقبل للمساعدة في حل المشكلات العملية الحقيقية والمعقدة.

بعد رؤية هذا، هل أنت حريص على تجربته؟ منصة معركة Tianfeng Mahjong:https://tenhou.net/دعونا نلعب لعبة معًا!

-- زيادة--