مجموعة بيانات تقييم لعبة البوكر PokerBench
التاريخ
الحجم
رابط النشر
العلامات
الفئات
PokerBench هي مجموعة بيانات لتقييم لعبة البوكر تم تطويرها بواسطة فريق بحثي من جامعة كاليفورنيا، بيركلي ومعهد جورجيا للتكنولوجيا في عام 2025. وتهدف إلى تقييم أداء نماذج اللغة الكبيرة (LLMs) في ألعاب البوكر المعقدة والاستراتيجية. "نتائج الورقة ذات الصلة هي"PokerBench: تدريب نماذج اللغات الكبيرة ليصبحوا لاعبي بوكر محترفينتحتوي مجموعة البيانات على 11 ألف سيناريو رئيسي، مقسمة إلى 1 ألف سيناريو قبل الدخول في اللعبة و10 آلاف سيناريو بعد الدخول في اللعبة، وتغطي مجموعة واسعة من مواقف اللعبة.
تم إنشاء مجموعة البيانات استنادًا إلى استراتيجيات البوكر المثالية من الناحية النظرية (GTO) وتم تطويرها بالتعاون مع لاعبي البوكر المحترفين لضمان تنوعها وتمثيلها. من خلال استخدام أدوات GTOWizard وWASM-Postflop، تضمن مجموعة البيانات أن القرار لكل سيناريو يتوافق مع الاستراتيجية المثلى. بالإضافة إلى ذلك، يأخذ بناء مجموعة البيانات أيضًا في الاعتبار أشجار القرار المعقدة في ألعاب البوكر، ويضمن شمولية وكفاءة التقييم من خلال استراتيجيات التصفية والتقليم.
وباستخدام هذه المجموعة من البيانات، يستطيع الباحثون تقييم أداء النموذج بسرعة في ألعاب البوكر، وخاصة في مجالات مثل التفكير الرياضي، والتخطيط الاستراتيجي، والتنبؤ بسلوك الخصم.
