HyperAIHyperAI

Command Palette

Search for a command to run...

Test Des Time-Benchmark-Datensatzes Für Die Zeitlichen Schlussfolgerungsfähigkeiten Großer Modelle

Datum

vor einem Jahr

Größe

41.76 MB

Organisation

DeepMind

Paper-URL

arxiv.org

Lizenz

CC BY 4.0

Test of Time, kurz ToT, ist ein Benchmarktest, der 2024 von Forschern bei Google DeepMind speziell zur Bewertung der zeitlichen Denkfähigkeiten großer Sprachmodelle eingeführt wurde. Es untersucht das zeitliche Verständnis und die Rechenfähigkeiten von LLMs aus zwei unabhängigen Dimensionen. Die relevanten Papierergebnisse sindTest der Zeit: Ein Benchmark zur Bewertung von LLMs zum Thema zeitliches Denken"

Der ToT-Datensatz ist in drei Teilmengen unterteilt: ToT-semantic enthält 1.850 Beispiele, ToT-arithmetic enthält 2.800 Beispiele und ToT-semantic-large enthält 46.480 Beispiele, die die Semantik und Logik des zeitlichen Verständnisses in einem größeren Maßstab messen können.

Datenformat

Die ToT-semantic- und ToT-semantic-large-Datensätze enthalten die folgenden Felder:

  • Frage: Enthält den Text der Frage.
  • graph_gen_algorithm: Der Name des Graphgenerator-Algorithmus.
  • question_type: entspricht einem der 7 Fragetypen im Datensatz.
  • sorting_type: entspricht dem auf die Tatsache angewendeten Sortiertyp.
  • prompt: Enthält den vollständigen Eingabeaufforderungstext, der zur Auswertung der LLM-Aufgabe verwendet wird.
  • Bezeichnung: Die Standardantwort auf die Frage.

Der ToT-Arithmetik-Datensatz enthält drei Felder: Frage, Fragetyp und Bezeichnung.

Datenquelle

ToT wird synthetisch mithilfe öffentlicher Bibliotheken wie NetworkX generiert.

  • Zweck: ToT ist in erster Linie für die Verwendung als Test-Set konzipiert.
  • verbieten:Die Verwendung von ToT als Trainingssatz ist strengstens untersagt.
ToT.torrent
Seeding 1Herunterladen 0Abgeschlossen 194Gesamtdownloads 285
  • ToT/
    • README.md
      1.97 KB
    • README.txt
      3.93 KB
      • data/
        • ToT.zip
          41.76 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Test Des Time-Benchmark-Datensatzes Für Die Zeitlichen Schlussfolgerungsfähigkeiten Großer Modelle | Datensätze | HyperAI