Command Palette

Search for a command to run...

SocialMaze 論理的推論ベンチマークデータセット

日付

6ヶ月前

サイズ

169.48 MB

SocialMaze は、マルチエージェント相互作用シナリオにおける隠れた役割の推論タスクに焦点を当てた社会的推論ベンチマーク データセットです。複雑な社会環境における大規模言語モデル (LLM) の論理的推論、欺瞞検出、および複数ラウンドの対話理解機能を評価することを目的としています。これは、LLM の社会的推論能力を研究するための標準化されたテスト プラットフォームを提供します。

このデータセットは、欺瞞や誤った判断を含む社会的シナリオをシミュレートする、隠れた役割推論ゲームを中心に設計されています。

役割設定:

  • 調査員: 常に真実の陳述をしてください。
  • 犯罪者: 世間を混乱させるために選択的に嘘をつく可能性があります。
  • 噂話者: 自分は調査員だと思っているが、彼らの発言は真実だったり嘘だったりする。
  • 狂人: 自分は犯罪者だと信じ、真実か虚偽かをランダムに発言する。

ゲームの流れ:

各ゲームは 3 ラウンドの対話で構成され、各ラウンドですべてのプレイヤーが、あるプレイヤーが犯罪者であるかどうかを公に特定します。プレイヤー 1 (つまり、モデルの視点) は、3 ラウンドの対話記録に基づいて、真犯人と自分の本当の役割 (上記の 4 つのいずれか) を推測する必要があります。

主な課題は、真実の陳述とランダムな嘘を区別し、登場人物の自己認識バイアス(噂の流布者や狂人の偽の身元など)に対処し、不可能な選択肢を徐々に排除して、複数回の対話における論理的矛盾や一貫性を通じて唯一の解決策を確定することです。

SocialMaze.torrent
シーディング 1ダウンロード中 0ダウンロード完了 48総ダウンロード数 99
  • SocialMaze/
    • README.md
      1.89 KB
    • README.txt
      3.79 KB
      • data/
        • SocialMaze.zip
          169.48 MB

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SocialMaze 論理的推論ベンチマークデータセット | データセット | HyperAI超神経