HyperAI

SocialMaze는 다중 에이전트 상호 작용 시나리오에서 숨겨진 역할 추론 작업에 초점을 맞춘 사회적 추론 벤치마크 데이터 세트입니다. 이 연구는 복잡한 사회 환경에서 대규모 언어 모델(LLM)의 논리적 추론, 속임수 탐지, 다단계 대화 이해 능력을 평가하는 것을 목표로 합니다. LLM의 사회적 추론 능력을 연구하기 위한 표준화된 시험 플랫폼을 제공합니다.

이 데이터 세트는 기만과 잘못된 판단이 포함된 사회적 시나리오를 시뮬레이션하는 숨겨진 역할 추론 게임을 중심으로 설계되었습니다.

역할 설정:

조사자: 항상 진실된 진술을 제공하세요.

범죄자: 대중을 혼란스럽게 하기 위해 선택적으로 거짓말을 할 수 있습니다.

소문 퍼뜨리는 사람: 자신이 조사원이라고 생각하지만, 그들의 진술은 무작위로 사실이거나 거짓입니다.

미치광이: 자신을 범죄자라고 믿고 무작위로 진실 또는 거짓 진술을 합니다.

게임 흐름:

각 게임은 3라운드의 대화로 구성되며, 각 라운드에서 모든 플레이어는 자신이 범죄자인지 공개적으로 밝힙니다. 플레이어 1(즉, 모델 관점)은 3라운드의 대화 기록을 토대로 실제 범죄자와 자신의 진짜 역할(위에서 언급한 네 가지 중 하나일 수 있음)을 추론해야 합니다.

핵심 과제는 진실된 진술과 무작위적인 거짓말을 구별하고, 소문을 퍼뜨리는 사람과 미치광이의 거짓 신분 등 캐릭터의 자기 인식 편향을 처리하고, 불가능한 옵션을 점진적으로 제거하고 여러 차례의 대화를 통해 논리적 모순이나 일관성을 통해 유일한 해결책을 확보하는 것입니다.

SocialMaze 논리적 추론 벤치마크 데이터 세트

역할 설정:

게임 흐름:

AI로 AI 구축

Hyper Newsletters

Command Palette

SocialMaze 논리적 추론 벤치마크 데이터 세트

역할 설정:

게임 흐름:

AI로 AI 구축

Hyper Newsletters