HyperAIHyperAI

Command Palette

Search for a command to run...

SocialMaze 逻辑推理基准数据集

Date

7 个月前

Size

169.48 MB

SocialMaze 是一个社会推理基准数据集,聚焦于多智能体交互场景下的隐藏角色推理任务,旨在评估大型语言模型(LLMs)在复杂社交环境中的逻辑推理、欺骗识别和多轮对话理解能力。为研究 LLMs 的社会推理能力提供了标准化测试平台。

该数据集围绕隐藏角色推理游戏设计,模拟含欺骗与误判的社交场景:

角色设定:

  • 调查员(Investigator):始终提供真实陈述。
  • 罪犯(Criminal):可选择性撒谎,混淆视听。
  • 谣言传播者(Rumormonger):自认为是调查员,但陈述随机真假。
  • 疯子(Lunatic):自认为是罪犯,陈述随机真假。

游戏流程:

每局包含 3 轮对话,每轮所有玩家公开指认某一玩家是否为罪犯。玩家 1(即模型视角)需根据三轮对话记录,推断真正的罪犯及自身真实角色(可能为上述四种之一)。

核心挑战是区分真实陈述与随机谎言,处理角色自我认知偏差(如谣言传播者和疯子的错误身份认知),通过多轮对话中的逻辑矛盾或一致性,逐步排除不可能选项,锁定唯一解。

SocialMaze.torrent
Seeding 1Downloading 0Completed 50Total Downloads 143
  • SocialMaze/
    • README.md
      1.89 KB
    • README.txt
      3.79 KB
      • data/
        • SocialMaze.zip
          169.48 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供