Command Palette
Search for a command to run...

Abstract
Wir stellen die erste Version des AI Productivity Index (APEX) vor, einem Benchmark zur Bewertung der Fähigkeit fortschrittlicher KI-Modelle, arbeitsintensive Tätigkeiten mit hohem ökonomischen Wert zu erfüllen. APEX adressiert eine der größten Ineffizienzen in der KI-Forschung: Außerhalb des Programmierens messen Benchmarks häufig nicht diejenigen Fähigkeiten, die wirtschaftlich relevant sind. APEX-v1.0 umfasst 200 Testfälle und deckt vier Bereiche ab: Investmentbanking, Managementberatung, Rechtswesen und primäre medizinische Versorgung. Die Entwicklung erfolgte in drei Schritten: Erstens gewannen wir Experten mit exzellenter fachlicher Expertise, beispielsweise Investmentbanker von Goldman Sachs. Zweitens erstellten die Experten Prompt-Texte, die typische, wertvolle Aufgaben in ihrem täglichen Arbeitsalltag widerspiegeln. Drittens entwickelten sie Bewertungsraster zur Beurteilung der Modellantworten. Wir evaluieren 23 fortschrittliche Modelle anhand von APEX-v1.0 mithilfe eines LM-Judges. GPT 5 (Thinking = High) erzielt die höchste Durchschnittsnote (64,2 %), gefolgt von Grok 4 (61,3 %) und Gemini 2.5 Flash (Thinking = On) (60,4 %). Qwen 3 235B ist das bestperformende Open-Source-Modell und rangiert insgesamt siebte. Zwischen der Leistung der besten Modelle und der von menschlichen Experten besteht eine erhebliche Lücke, was die Notwendigkeit einer präziseren Messung der Fähigkeit von Modellen zur Erstellung wirtschaftlich wertvoller Arbeit unterstreicht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.