SocialMaze-Benchmark-Datensatz Für Logisches Denken
SocialMaze ist ein Benchmark-Datensatz für soziales Denken, der sich auf Aufgaben zum Denken über verborgene Rollen in Szenarien mit der Interaktion mehrerer Agenten konzentriert. Ziel ist es, die Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Denken, zur Täuschungserkennung und zum mehrstufigen Dialogverständnis in komplexen sozialen Umgebungen zu bewerten. Es bietet eine standardisierte Testplattform zum Studium der sozialen Denkfähigkeit von LLMs.
Dieser Datensatz basiert auf einem versteckten Rollenspiel, das soziale Szenarien simuliert, die Täuschung und Fehleinschätzungen beinhalten:
Rolleneinstellungen:
- Ermittler: Geben Sie immer eine wahrheitsgemäße Aussage ab.
- Kriminell: Lügt möglicherweise gezielt, um die Öffentlichkeit zu verwirren.
- Gerüchteverbreiter: Hält sich für einen Ermittler, aber seine Aussagen sind willkürlich wahr oder falsch.
- Wahnsinniger: Hält sich für einen Kriminellen und macht willkürlich wahre oder falsche Aussagen.
Spielablauf:
Jedes Spiel besteht aus 3 Dialogrunden und in jeder Runde geben alle Spieler öffentlich bekannt, ob ein Spieler ein Krimineller ist. Spieler 1 (also die Modellperspektive) muss anhand der Dialogaufzeichnungen aus den drei Runden auf den wahren Täter und seine eigene wahre Rolle (die eine der vier oben genannten sein kann) schließen.
Die zentrale Herausforderung besteht darin, wahre Aussagen von willkürlichen Lügen zu unterscheiden, mit der verzerrten Selbstwahrnehmung der Charaktere umzugehen (wie etwa der falschen Identität von Gerüchteverbreitern und Geisteskranken) und nach und nach unmögliche Optionen auszuschließen und durch logische Widersprüche oder Übereinstimmungen in mehreren Dialogrunden die einzige Lösung festzulegen.