Command Palette
Search for a command to run...
APEX AI Produktivitäts-Benchmark-Datensatz
Date
Publish URL
Paper URL
APEX ist ein umfassender Benchmark-Datensatz, der 2025 vom Mercor-Forschungsteam in Zusammenarbeit mit der Harvard Law School und dem Scripps Research Institute veröffentlicht wurde. Er dient der Bewertung der Leistungsfähigkeit modernster KI-Modelle bei wissensintensiven Aufgaben mit hohem wirtschaftlichem Wert. Die zugehörige Forschungsarbeit trägt den Titel „…“.Der KI-Produktivitätsindex (APEX)Ziel ist es, die Leistungsfähigkeit modernster KI-Modelle bei realen wirtschaftlichen Aufgaben zu messen, anstatt sich nur auf abstraktes Denken zu konzentrieren.
Die aktuelle Version dieses Datensatzes ist APEX-v1.0. Sie enthält 200 Aufgaben mit hohem wirtschaftlichem Wert, die professionelles Fachwissen aus vier typischen wissensintensiven Bereichen abdecken: Investmentbanking, Unternehmensberatung, Recht und Gesundheitswesen. Jede Aufgabe entspricht der Analyse-, Beurteilungs- und Dokumentationsarbeit, für die Fachkräfte in der Praxis 1–8 Stunden benötigen würden. Sie wird durch zitierfähige Belege und interpretierbare, detaillierte Bewertungskriterien ergänzt, um die Qualität der Modellergebnisse objektiv zu messen.

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.