HyperAI超神经

SocialMaze 逻辑推理基准数据集

日期

18 days ago

发布地址

huggingface.co

分类

下载帮助

SocialMaze 是一个社会推理基准数据集,聚焦于多智能体交互场景下的隐藏角色推理任务,旨在评估大型语言模型(LLMs)在复杂社交环境中的逻辑推理、欺骗识别和多轮对话理解能力。为研究 LLMs 的社会推理能力提供了标准化测试平台。

该数据集围绕隐藏角色推理游戏设计,模拟含欺骗与误判的社交场景:

角色设定:

  • 调查员(Investigator):始终提供真实陈述。
  • 罪犯(Criminal):可选择性撒谎,混淆视听。
  • 谣言传播者(Rumormonger):自认为是调查员,但陈述随机真假。
  • 疯子(Lunatic):自认为是罪犯,陈述随机真假。

游戏流程:

每局包含 3 轮对话,每轮所有玩家公开指认某一玩家是否为罪犯。玩家 1(即模型视角)需根据三轮对话记录,推断真正的罪犯及自身真实角色(可能为上述四种之一)。

核心挑战是区分真实陈述与随机谎言,处理角色自我认知偏差(如谣言传播者和疯子的错误身份认知),通过多轮对话中的逻辑矛盾或一致性,逐步排除不可能选项,锁定唯一解。