ChatGPT erreicht menschliche Leistung in vielen Berufsaufgaben
OpenAI hat eine neue Studie vorgestellt, die belegt, dass KI-Modelle wie ChatGPT bereits bestimmte berufliche Aufgaben erledigen können, die dem Niveau menschlicher Experten entsprechen. Im Zentrum steht das neue Benchmark-System GDPval, das 44 Berufe aus neun wirtschaftlich bedeutenden Branchen der USA abdeckt – darunter Finanzen, Fertigung, Immobilien, Regierung und Softwareentwicklung. Im Gegensatz zu traditionellen Tests, die abstrakte akademische Aufgaben bewerten, konzentriert sich GDPval auf realweltrelevante, wirtschaftlich wertvolle Tätigkeiten. Die Aufgaben wurden von Fachleuten mit durchschnittlich 14 Jahren Berufserfahrung entwickelt, die auch Referenzlösungen erstellten. Für die Bewertung nutzte OpenAI Experten aus denselben Branchen, die die von KI generierten Ergebnisse blind gegenüber menschlichen Lösungen bewerteten – mit Urteilen wie „besser“, „gleichwertig“ oder „schlechter“. Die Ergebnisse zeigen, dass moderne KI-Modelle bereits erhebliche Fortschritte gemacht haben. Bei 220 Aufgaben aus der „Gold-Set“-Kategorie erreichte Claude Opus 4.1 mit 47,6 % Sieg- und Unentschieden-Rate die beste Leistung, besonders stark in Design, Formatierung und visueller Gestaltung. GPT-5 high folgte mit 38,8 %, vor allem durch hohe Genauigkeit und korrekte Ausführung von Anweisungen. GPT-4o lag mit nur 12,4 % deutlich hinterher. Besonders gut schnitten die Modelle bei Routineaufgaben ab – etwa bei Kassierer- und Lagerarbeiten, Verkaufsleitern oder Softwareentwicklung. Schwächen zeigten sich dagegen bei komplexen, kreativen oder hochspezialisierten Tätigkeiten wie industriellen Ingenieurarbeiten, pharmazeutischen Prozessen, Finanzmanagement oder Videobearbeitung. OpenAI betont, dass KI-Modelle diese Aufgaben bis zu 100-mal schneller und 100-mal kostengünstiger erledigen können als Menschen. Dennoch warnt das Unternehmen davor, menschliche Arbeit vollständig durch KI zu ersetzen: „Die meisten Jobs bestehen aus mehr als nur ausführbaren Aufgaben – sie beinhalten Urteilskraft, Kreativität und Kontextverständnis.“ GDPval soll daher nicht als Ersatz für menschliche Arbeit dienen, sondern als Werkzeug, um zu zeigen, wo KI Routinearbeiten übernehmen kann, damit Menschen sich auf anspruchsvollere, kognitive Aufgaben konzentrieren können. Die Studie kommt angesichts von Skepsis gegenüber KI-Investitionen gelegen. Eine kürzlich veröffentlichte Untersuchung des MIT Media Lab hatte ergeben, dass weniger als zehn Prozent der KI-Pilotprojekte messbare Umsatzzuwächse brachten, während die Harvard Business Review und Stanford-Sozialmedienforscher „Workslop“ – also oberflächliche, aber scheinbar produktive KI-Arbeit – als Hauptursache für die geringen Erfolge identifizierten. GDPval soll nun eine evidenzbasierte Grundlage für die Bewertung von KI in der Arbeitswelt schaffen und die Diskussion von Hype weg auf messbare Leistungsfähigkeit lenken. Industrieexperten begrüßen die Initiative als wichtigen Schritt zur Realitätsnähe in der KI-Bewertung. „GDPval ist das erste Benchmark-System, das wirklich zeigt, was KI heute in der Praxis kann – und was nicht“, sagt eine Analystin von Gartner. OpenAI positioniert sich damit als treibende Kraft bei der Entwicklung von KI, die nicht nur technisch leistungsfähig, sondern auch wirtschaftlich relevant ist. Die Plattform hat sich in den letzten Jahren von einem Forschungslabor zu einem zentralen Akteur im KI-Ökosystem entwickelt und setzt auf eine Strategie, die Technologieentwicklung mit praktischer Anwendbarkeit verbindet.