HyperAIHyperAI

Command Palette

Search for a command to run...

HLE-Benchmark-Datensatz Zum Menschlichen Fragendenken

Date

vor 7 Monaten

Size

227.35 MB

Paper URL

arxiv.org

HLE steht für Humanity's Last Exam und ist ein multimodaler Benchmark-Datensatz zu menschlichen Problemen, der 2025 gemeinsam vom Center for AI Safety und Scale AI veröffentlicht wurde. Die Ergebnisse der Studie sind:Die letzte Prüfung der Menschheit" zielt darauf ab, das ultimative geschlossene Bewertungssystem zu entwickeln, das die Grenzen des menschlichen Wissens abdeckt.

Der Datensatz enthält 2.500 Fragen zu Dutzenden von Themen wie Mathematik, Geisteswissenschaften und Naturwissenschaften, darunter Multiple-Choice-Fragen und Fragen mit Kurzantworten, die für die automatische Bewertung geeignet sind.

Themenverteilung:

  • Mathematik (41%):Abstrakte Probleme wie höhere Mathematik, Wahrscheinlichkeitstheorie und Algorithmendesign.
  • Informatik/Künstliche Intelligenz (10%):Theorie des maschinellen Lernens, Berechnungskomplexität, Verarbeitung natürlicher Sprache.
  • Naturwissenschaften (27%):Physik (9%), Chemie (7%), Biologie/Medizin (11%), einschließlich Quantenphysik, organischer Synthese, pathologischer Mechanismen usw.
  • Geistes-/Sozialwissenschaften (9%):Fragen der kritischen Analyse in Philosophie, Geschichte, Wirtschaft und Soziologie.
  • Ingenieurwissenschaften (4%) und andere Disziplinen (9%):Behandelt technisches Design, Kunstgeschichte und hochaktuelle interdisziplinäre Themen.

Disziplinverteilung

hle.torrent
Seeding 1Downloading 0Completed 121Total Downloads 528
  • hle/
    • README.md
      1.69 KB
    • README.txt
      3.37 KB
      • data/
        • hle.zip
          227.35 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp