HyperAIHyperAI
منذ 2 أشهر

التحكم في الشطرنج والشوجي من خلال اللعب الذاتي باستخدام خوارزمية تعليم تعزيزي عامة

David Silver; Thomas Hubert; Julian Schrittwieser; Ioannis Antonoglou; Matthew Lai; Arthur Guez; Marc Lanctot; Laurent Sifre; Dharshan Kumaran; Thore Graepel; Timothy Lillicrap; Karen Simonyan; Demis Hassabis
التحكم في الشطرنج والشوجي من خلال اللعب الذاتي باستخدام خوارزمية تعليم تعزيزي عامة
الملخص

لعبة الشطرنج هي المجال الأكثر دراسة في تاريخ الذكاء الاصطناعي. تعتمد أقوى البرامج على مزيج من تقنيات البحث المتطورة، والتكيفات الخاصة بالمجال، ووظائف التقييم التي تم صقلها من قبل الخبراء البشريين على مدى عقود عدة. بالمقابل، حققت برنامج ألفا جو زيرو أداءً فائقًا للبشر في لعبة الجو من خلال تعلم التعزيز من الصفر (tabula rasa) من ألعاب اللعب الذاتي. في هذا البحث، نعمم هذه الطريقة إلى خوارزمية واحدة تسمى ألفازرو (AlphaZero) يمكنها تحقيق أداء فائق للبشر في العديد من المجالات الصعبة. بدءًا من اللعب العشوائي، وفي ظل عدم وجود أي معرفة بالمجال سوى قواعد اللعبة، حققت ألفازرو (AlphaZero) مستوىً فائقًا للبشر في ألعاب الشطرنج والشوجي (الشطرنج الياباني) والجو خلال 24 ساعة فقط، وهزمت برامج بطل العالم بشكل مقنع في كل حالة.

التحكم في الشطرنج والشوجي من خلال اللعب الذاتي باستخدام خوارزمية تعليم تعزيزي عامة | أحدث الأوراق البحثية | HyperAI