HyperAI超神経

SocialMaze 論理的推論ベンチマークデータセット

日付

19日前

カテゴリ

ダウンロードヘルプ

SocialMaze は、マルチエージェント相互作用シナリオにおける隠れた役割の推論タスクに焦点を当てた社会的推論ベンチマーク データセットです。複雑な社会環境における大規模言語モデル (LLM) の論理的推論、欺瞞検出、および複数ラウンドの対話理解機能を評価することを目的としています。これは、LLM の社会的推論能力を研究するための標準化されたテスト プラットフォームを提供します。

このデータセットは、欺瞞や誤った判断を含む社会的シナリオをシミュレートする、隠れた役割推論ゲームを中心に設計されています。

役割設定:

  • 調査員: 常に真実の陳述をしてください。
  • 犯罪者: 世間を混乱させるために選択的に嘘をつく可能性があります。
  • 噂話者: 自分は調査員だと思っているが、彼らの発言は真実だったり嘘だったりする。
  • 狂人: 自分は犯罪者だと信じ、真実か虚偽かをランダムに発言する。

ゲームの流れ:

各ゲームは 3 ラウンドの対話で構成され、各ラウンドですべてのプレイヤーが、あるプレイヤーが犯罪者であるかどうかを公に特定します。プレイヤー 1 (つまり、モデルの視点) は、3 ラウンドの対話記録に基づいて、真犯人と自分の本当の役割 (上記の 4 つのいずれか) を推測する必要があります。

主な課題は、真実の陳述とランダムな嘘を区別し、登場人物の自己認識バイアス(噂の流布者や狂人の偽の身元など)に対処し、不可能な選択肢を徐々に排除して、複数回の対話における論理的矛盾や一貫性を通じて唯一の解決策を確定することです。