vor 3 Monaten

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody

Zusammenfassung

Wir stellen die erste Version des AI Productivity Index (APEX) vor, einem Benchmark zur Bewertung der Fähigkeit fortschrittlicher KI-Modelle, arbeitsintensive Tätigkeiten mit hohem ökonomischen Wert zu erfüllen. APEX adressiert eine der größten Ineffizienzen in der KI-Forschung: Außerhalb des Programmierens messen Benchmarks häufig nicht diejenigen Fähigkeiten, die wirtschaftlich relevant sind. APEX-v1.0 umfasst 200 Testfälle und deckt vier Bereiche ab: Investmentbanking, Managementberatung, Rechtswesen und primäre medizinische Versorgung. Die Entwicklung erfolgte in drei Schritten: Erstens gewannen wir Experten mit exzellenter fachlicher Expertise, beispielsweise Investmentbanker von Goldman Sachs. Zweitens erstellten die Experten Prompt-Texte, die typische, wertvolle Aufgaben in ihrem täglichen Arbeitsalltag widerspiegeln. Drittens entwickelten sie Bewertungsraster zur Beurteilung der Modellantworten. Wir evaluieren 23 fortschrittliche Modelle anhand von APEX-v1.0 mithilfe eines LM-Judges. GPT 5 (Thinking = High) erzielt die höchste Durchschnittsnote (64,2 %), gefolgt von Grok 4 (61,3 %) und Gemini 2.5 Flash (Thinking = On) (60,4 %). Qwen 3 235B ist das bestperformende Open-Source-Modell und rangiert insgesamt siebte. Zwischen der Leistung der besten Modelle und der von menschlichen Experten besteht eine erhebliche Lücke, was die Notwendigkeit einer präziseren Messung der Fähigkeit von Modellen zur Erstellung wirtschaftlich wertvoller Arbeit unterstreicht.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Der KI-Produktivitätsindex (APEX)

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Der KI-Produktivitätsindex (APEX)

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Der KI-Produktivitätsindex (APEX)

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody