OpenAI verursacht Chart-Skandal bei GPT-5-Launch
Während der großen GPT-5-Livestream-Präsentation am Donnerstag zeigte OpenAI mehrere Diagramme, die den neuen KI-Modell als außergewöhnlich leistungsfähig darstellen sollten – doch bei genauerem Hinsehen zeigten sich erhebliche Ungenauigkeiten. Ein besonders auffälliges Beispiel war ein Diagramm, das die „Täuschungseffizienz“ (deception evals) verschiedener Modelle verglich. Dort wurde behauptet, dass GPT-5 bei der „Codierungstäuschung“ eine Rate von 50,0 Prozent erreicht, während das kleinere Modell o3 mit 47,4 Prozent deutlich niedriger abschnitt – dennoch wurde o3 mit einem größeren Balken dargestellt. In einem weiteren Fall war ein GPT-5-Wert niedriger als der von o3, wurde aber dennoch mit einem größeren Balken visualisiert. Auch bei der Darstellung von o3 und GPT-4o war der Unterschied in den Zahlen nicht reflektiert, da beide Balken gleich groß erschienen. Die Fehler waren so offensichtlich, dass CEO Sam Altman das Diagramm als „mega chart screwup“ bezeichnete. Ein Mitarbeiter aus dem Marketing-Team entschuldigte sich für den „unabsichtlichen Chart-Crime“. OpenAI reagierte zunächst nicht auf Anfragen zur Klärung der Vorfälle. Ob GPT-5 selbst zur Erstellung der Grafiken verwendet wurde, blieb unklar. Doch das Timing war besonders ungünstig: Just in dem Moment, in dem OpenAI die „erheblichen Fortschritte bei der Reduzierung von Halluzinationen“ im neuen Modell betont, entpuppte sich die Präsentation als missglückt. Die ungenauen Visualisierungen untergraben das Image von Genauigkeit und Zuverlässigkeit, das OpenAI gerade bei der Einführung von GPT-5 vermitteln wollte. In der KI-Community wurde die Episode als peinlich und kontraproduktiv bewertet. Experten betonten, dass solche grafischen Fehler bei einem Unternehmen, das sich als Vorreiter in KI-Transparenz positioniert, besonders schädlich wirken. Die Verwendung von irreführenden Darstellungen – selbst wenn sie unbeabsichtigt sind – könnte das Vertrauen in die wissenschaftliche Integrität von OpenAI beeinträchtigen. Gleichzeitig unterstreicht die Episode die Herausforderungen bei der Kommunikation komplexer Leistungsdaten, besonders bei hochsensiblen, von der Öffentlichkeit genau beobachteten Produkt-Debuts. OpenAI, das seit der Einführung von GPT-3.5 und GPT-4 kontinuierlich auf die Verbesserung von KI-Genauigkeit setzt, steht nun vor der Aufgabe, nicht nur technisch, sondern auch kommunikativ überzeugend zu wirken. Die Episode dient als Warnung: Selbst bei den fortschrittlichsten KI-Modellen bleibt menschliches Fehlverhalten – insbesondere bei der Datenvisualisierung – ein Risiko, das die Glaubwürdigkeit eines Unternehmens gefährden kann.