Command Palette

Search for a command to run...

SocialMaze 逻辑推理基准数据集

日期

6 个月前

大小

169.48 MB

SocialMaze 是一个社会推理基准数据集,聚焦于多智能体交互场景下的隐藏角色推理任务,旨在评估大型语言模型(LLMs)在复杂社交环境中的逻辑推理、欺骗识别和多轮对话理解能力。为研究 LLMs 的社会推理能力提供了标准化测试平台。

该数据集围绕隐藏角色推理游戏设计,模拟含欺骗与误判的社交场景:

角色设定:

  • 调查员(Investigator):始终提供真实陈述。
  • 罪犯(Criminal):可选择性撒谎,混淆视听。
  • 谣言传播者(Rumormonger):自认为是调查员,但陈述随机真假。
  • 疯子(Lunatic):自认为是罪犯,陈述随机真假。

游戏流程:

每局包含 3 轮对话,每轮所有玩家公开指认某一玩家是否为罪犯。玩家 1(即模型视角)需根据三轮对话记录,推断真正的罪犯及自身真实角色(可能为上述四种之一)。

核心挑战是区分真实陈述与随机谎言,处理角色自我认知偏差(如谣言传播者和疯子的错误身份认知),通过多轮对话中的逻辑矛盾或一致性,逐步排除不可能选项,锁定唯一解。

SocialMaze.torrent
做种 2正在下载 0已完成 48总下载次数 99
  • SocialMaze/
    • README.md
      1.89 KB
    • README.txt
      3.79 KB
      • data/
        • SocialMaze.zip
          169.48 MB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供