HyperAIHyperAI

Command Palette

Search for a command to run...

HLE-Benchmark-Datensatz Zum Menschlichen Fragendenken

Datum

vor 5 Monaten

Größe

227.35 MB

Paper-URL

arxiv.org

HLE steht für Humanity's Last Exam und ist ein multimodaler Benchmark-Datensatz zu menschlichen Problemen, der 2025 gemeinsam vom Center for AI Safety und Scale AI veröffentlicht wurde. Die Ergebnisse der Studie sind:Die letzte Prüfung der Menschheit" zielt darauf ab, das ultimative geschlossene Bewertungssystem zu entwickeln, das die Grenzen des menschlichen Wissens abdeckt.

Der Datensatz enthält 2.500 Fragen zu Dutzenden von Themen wie Mathematik, Geisteswissenschaften und Naturwissenschaften, darunter Multiple-Choice-Fragen und Fragen mit Kurzantworten, die für die automatische Bewertung geeignet sind.

Themenverteilung:

  • Mathematik (41%):Abstrakte Probleme wie höhere Mathematik, Wahrscheinlichkeitstheorie und Algorithmendesign.
  • Informatik/Künstliche Intelligenz (10%):Theorie des maschinellen Lernens, Berechnungskomplexität, Verarbeitung natürlicher Sprache.
  • Naturwissenschaften (27%):Physik (9%), Chemie (7%), Biologie/Medizin (11%), einschließlich Quantenphysik, organischer Synthese, pathologischer Mechanismen usw.
  • Geistes-/Sozialwissenschaften (9%):Fragen der kritischen Analyse in Philosophie, Geschichte, Wirtschaft und Soziologie.
  • Ingenieurwissenschaften (4%) und andere Disziplinen (9%):Behandelt technisches Design, Kunstgeschichte und hochaktuelle interdisziplinäre Themen.

Disziplinverteilung

hle.torrent
Seeding 1Herunterladen 0Abgeschlossen 106Gesamtdownloads 466
  • hle/
    • README.md
      1.69 KB
    • README.txt
      3.37 KB
      • data/
        • hle.zip
          227.35 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp