Command Palette
Search for a command to run...
APEX AI Produktivitäts-Benchmark-Datensatz
Datum
Veröffentlichungs-URL
Paper-URL
APEX ist ein umfassender Benchmark-Datensatz, der 2025 vom Mercor-Forschungsteam in Zusammenarbeit mit der Harvard Law School und dem Scripps Research Institute veröffentlicht wurde. Er dient der Bewertung der Leistungsfähigkeit modernster KI-Modelle bei wissensintensiven Aufgaben mit hohem wirtschaftlichem Wert. Die zugehörige Forschungsarbeit trägt den Titel „…“.Der KI-Produktivitätsindex (APEX)Ziel ist es, die Leistungsfähigkeit modernster KI-Modelle bei realen wirtschaftlichen Aufgaben zu messen, anstatt sich nur auf abstraktes Denken zu konzentrieren.
Die aktuelle Version dieses Datensatzes ist APEX-v1.0. Sie enthält 200 Aufgaben mit hohem wirtschaftlichem Wert, die professionelles Fachwissen aus vier typischen wissensintensiven Bereichen abdecken: Investmentbanking, Unternehmensberatung, Recht und Gesundheitswesen. Jede Aufgabe entspricht der Analyse-, Beurteilungs- und Dokumentationsarbeit, für die Fachkräfte in der Praxis 1–8 Stunden benötigen würden. Sie wird durch zitierfähige Belege und interpretierbare, detaillierte Bewertungskriterien ergänzt, um die Qualität der Modellergebnisse objektiv zu messen.

KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.