HLE-Benchmark-Datensatz Zum Menschlichen Fragendenken
Datum
vor 10 Tagen
Größe
227.35 MB
Veröffentlichungs-URL
HLE ist ein multimodaler Benchmark-Datensatz für menschliche Probleme, der gemeinsam vom Center for AI Safety und Scale AI veröffentlicht wurde. Die zugehörigen Ergebnisse sind:Die letzte Prüfung der Menschheit" zielt darauf ab, das ultimative geschlossene Bewertungssystem zu entwickeln, das die Grenzen des menschlichen Wissens abdeckt.
Der Datensatz enthält 2.500 Fragen zu Dutzenden von Themen wie Mathematik, Geisteswissenschaften und Naturwissenschaften, darunter Multiple-Choice-Fragen und Fragen mit Kurzantworten, die für die automatische Bewertung geeignet sind.
Themenverteilung:
- Mathematik (41%):Abstrakte Probleme wie höhere Mathematik, Wahrscheinlichkeitstheorie und Algorithmendesign.
- Informatik/Künstliche Intelligenz (10%):Theorie des maschinellen Lernens, Berechnungskomplexität, Verarbeitung natürlicher Sprache.
- Naturwissenschaften (27%):Physik (9%), Chemie (7%), Biologie/Medizin (11%), einschließlich Quantenphysik, organischer Synthese, pathologischer Mechanismen usw.
- Geistes-/Sozialwissenschaften (9%):Fragen der kritischen Analyse in Philosophie, Geschichte, Wirtschaft und Soziologie.
- Ingenieurwissenschaften (4%) und andere Disziplinen (9%):Behandelt technisches Design, Kunstgeschichte und hochaktuelle interdisziplinäre Themen.

Disziplinverteilung
hle.torrent
Seeding 1Herunterladen 0Abgeschlossen 0Gesamtdownloads 2