HyperAI超神经

PokerBench est un ensemble de données d'évaluation de jeux de poker développé par une équipe de recherche de l'Université de Californie à Berkeley et du Georgia Institute of Technology en 2025. Il vise à évaluer les performances des grands modèles de langage (LLM) dans des jeux de poker complexes et stratégiques. Les résultats de l'article connexe sont «PokerBench : former de grands modèles de langage pour devenir des joueurs de poker professionnels". L'ensemble de données contient 11 000 scénarios clés, divisés en 1 000 scénarios pré-flop et 10 000 scénarios post-flop, couvrant un large éventail de situations de jeu.

L'ensemble de données a été créé sur la base de stratégies de poker Game Theoretically Optimal (GTO) et a été développé en collaboration avec des joueurs de poker professionnels pour garantir sa diversité et sa représentativité. En utilisant les outils GTOWizard et WASM-Postflop, l'ensemble de données garantit que la décision pour chaque scénario est cohérente avec la stratégie optimale. De plus, la construction de l'ensemble de données prend également en compte les arbres de décision complexes des jeux de poker et garantit l'exhaustivité et l'efficacité de l'évaluation grâce à des stratégies de filtrage et d'élagage.

Grâce à cet ensemble de données, les chercheurs peuvent évaluer rapidement les performances du modèle dans les jeux de poker, en particulier dans des domaines tels que le raisonnement mathématique, la planification stratégique et la prédiction du comportement de l'adversaire.

Ensemble De Données D'évaluation Du Jeu De Poker PokerBench