HyperAIHyperAI

Command Palette

Search for a command to run...

SocialMaze-Benchmark-Datensatz Für Logisches Denken

Date

vor 7 Monaten

Size

169.48 MB

SocialMaze ist ein Benchmark-Datensatz für soziales Denken, der sich auf Aufgaben zum Denken über verborgene Rollen in Szenarien mit der Interaktion mehrerer Agenten konzentriert. Ziel ist es, die Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Denken, zur Täuschungserkennung und zum mehrstufigen Dialogverständnis in komplexen sozialen Umgebungen zu bewerten. Es bietet eine standardisierte Testplattform zum Studium der sozialen Denkfähigkeit von LLMs.

Dieser Datensatz basiert auf einem versteckten Rollenspiel, das soziale Szenarien simuliert, die Täuschung und Fehleinschätzungen beinhalten:

Rolleneinstellungen:

  • Ermittler: Geben Sie immer eine wahrheitsgemäße Aussage ab.
  • Kriminell: Lügt möglicherweise gezielt, um die Öffentlichkeit zu verwirren.
  • Gerüchteverbreiter: Hält sich für einen Ermittler, aber seine Aussagen sind willkürlich wahr oder falsch.
  • Wahnsinniger: Hält sich für einen Kriminellen und macht willkürlich wahre oder falsche Aussagen.

Spielablauf:

Jedes Spiel besteht aus 3 Dialogrunden und in jeder Runde geben alle Spieler öffentlich bekannt, ob ein Spieler ein Krimineller ist. Spieler 1 (also die Modellperspektive) muss anhand der Dialogaufzeichnungen aus den drei Runden auf den wahren Täter und seine eigene wahre Rolle (die eine der vier oben genannten sein kann) schließen.

Die zentrale Herausforderung besteht darin, wahre Aussagen von willkürlichen Lügen zu unterscheiden, mit der verzerrten Selbstwahrnehmung der Charaktere umzugehen (wie etwa der falschen Identität von Gerüchteverbreitern und Geisteskranken) und nach und nach unmögliche Optionen auszuschließen und durch logische Widersprüche oder Übereinstimmungen in mehreren Dialogrunden die einzige Lösung festzulegen.

SocialMaze.torrent
Seeding 1Downloading 0Completed 50Total Downloads 143
  • SocialMaze/
    • README.md
      1.89 KB
    • README.txt
      3.79 KB
      • data/
        • SocialMaze.zip
          169.48 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp