HyperAIHyperAI

Command Palette

Search for a command to run...

ChatGPT irrte bei einfachen Fakten – auch GPT-5 nicht besser

ChatGPT und seine neuen Modelle wie GPT-5 werden von OpenAI als überlegene, nahezu fehlerfreie Intelligenz verkauft – als „PhD-Experten auf Abruf“ mit nahezu menschlichem Verständnis. Doch eine einfache Testfrage zeigt: Die Realität ist viel weniger beeindruckend. Die Frage lautete: „Wie viele US-Bundesstaaten enthalten den Buchstaben R?“ ChatGPT antwortete mit 21 Staaten, listete aber falsche Namen auf wie Illinois, Massachusetts und vor allem Minnesota – alle ohne R. Nach Kritik korrigierte es sich selbst, räumte den Fehler bei Minnesota ein und senkte die Zahl auf 20. Doch bei gezielter Provokation, etwa durch die Behauptung, Vermont habe keinen R, ließ sich das Modell täuschen und korrigierte sich selbst – obwohl Vermont klar ein R enthält. Ebenso verwechselte es Oregon und Alaska, obwohl diese ebenfalls keine R enthalten. Nach weiteren Fehlern, darunter die Erfindung von „mehrfachen Rs“ in Washington und Wisconsin sowie eine völlig falsche Liste von Staaten ohne „T“, wurde die Sitzung abgebrochen, da der Free-Plan-Limit erreicht war. Auch andere KI-Modelle wie xAI’s Grok, Google’s Gemini 2.5 Flash und Gemini 2.5 Pro zeigten gravierende Fehler: Grok nannte 24 Staaten, darunter Alabama und Pennsylvania, die keinen R haben. Gemini 2.5 Flash behauptete 34 Staaten mit R, listete aber nur 22 und erfand eine zweite Liste mit „mehrfachen Rs“ – voller Fehlinterpretationen. Die Pro-Version behauptete gar 40 Staaten mit R und erklärte, 27 Staaten hätten kein „T“, obwohl diese Frage nie gestellt wurde. Auch bei einfachen Textanalysen wie „Wie viele O’s in OpenAI?“ gab ChatGPT eine falsche Antwort – zwei O’s, obwohl das Wort nur ein großes O am Anfang enthält. OpenAI präsentiert GPT-5 als weniger „schmeichlerisch“, weniger fehleranfällig und „mehr wie ein Gespräch mit einem intelligenten Freund“. Doch die Tests zeigen: Die KI bleibt ein „Bullshit-Maschine“, die aufgrund von Token-Matching und Mustererkennung, nicht durch echtes Verständnis, antwortet. Sie kann nicht einfach prüfen, ob ein Wort einen Buchstaben enthält – sie „glaubt“ an eine Antwort, basierend auf vergangenen Daten, und vertraut dabei auf ihre eigene Gewissheit. Selbst wenn sie korrigiert wird, kann sie sich selbst wieder irren, wenn die Falschheit „plausibel“ klingt. Industriebeobachter warnen: Obwohl KI-Tools nützlich sein können, sind sie kein Ersatz für kritisches Denken. Die Behauptung, sie seien „supermächtig“ und könnten „jeden in der Geschichte übertreffen“, ist übertrieben. Selbst wenn GPT-5 in Tests weniger halluciniert, bleibt ein Fehlerquote von zehn Prozent – unakzeptabel für kritische Anwendungen. Nutzer sollten niemals blind vertrauen, sondern immer überprüfen. Denn wenn eine KI behauptet, ein Staat habe einen Buchstaben, der nicht da ist, kann sie auch bei wichtigeren Fragen falsch liegen – mit echten Folgen für Gesundheit, Forschung oder Entscheidungsfindung. OpenAI und andere Unternehmen verkaufen KI als Allheilmittel, doch die Realität ist: Es ist ein Werkzeug, das mit Vorsicht, Kritik und menschlicher Kontrolle eingesetzt werden muss – nicht als Ersatz für den eigenen Verstand.

Verwandte Links

ChatGPT irrte bei einfachen Fakten – auch GPT-5 nicht besser | Aktuelle Beiträge | HyperAI