HyperAI超神经

PokerBench 扑克游戏评估数据集

日期

3 个月前

大小

40.04 MB

机构

University of California Berkeley

发布地址

github.com

PokerBench 是一个由加州大学伯克利分校和佐治亚理工学院的研究团队于 2025 年开发的扑克游戏评估数据集,旨在评估大型语言模型 (LLMs) 在复杂、战略性的扑克游戏中的表现,相关论文成果为「PokerBench: Training Large Language Models to become Professional Poker Players」。该数据集包含 11k 个关键场景,分为 1k 个前翻牌和 10k 个后翻牌场景,涵盖了广泛的游戏情况。

数据集的创建基于游戏理论最优(GTO)扑克策略,通过与专业扑克玩家合作开发,确保其多样性和代表性。通过使用 GTOWizard 和 WASM-Postflop 工具,数据集确保了每个场景的决策都符合最优策略。此外,数据集的构建还考虑了扑克游戏中的复杂决策树,通过过滤和修剪策略,确保了评估的全面性和高效性。

通过这一数据集,研究人员可以快速评估模型在扑克游戏中的表现,尤其是在数学推理、策略规划和对手行为预测等方面的能力。

数据概览
PokerBench.torrent
做种 2正在下载 0已完成 37总下载次数 68
  • PokerBench/
    • README.md
      1.85 KB
    • README.txt
      3.7 KB
      • data/
        • poker.zip
          40.04 MB