KI-Modelle hallucinieren, weil sie Belohnung für falsche Sicherheit erhalten
Große Sprachmodelle wie ChatGPT hallucinieren nicht aus Unwissenheit, sondern weil sie im Trainingsprozess gelernt haben, mit Sicherheit zu antworten – selbst wenn sie keine Ahnung haben. Dies zeigt eine neue Studie von OpenAI und der Georgia Institute of Technology, die in einem Preprint veröffentlicht wurde. Die Forscher zeigen, dass selbst mit perfekten Trainingsdaten LLMs nicht zu 100 % korrekt sein können, da einige Fragen grundsätzlich unentscheidbar sind. Doch der eigentliche Grund für die Fehlannahmen liegt in der Art, wie Modelle bewertet werden: Standardbenchmarks belohnen sichere Antworten und bestrafen nur ungenaue, nicht aber das Eingeständnis von Unwissen. So wird ein Modell, das „Ich weiß nicht“ sagt, oft schlechter bewertet als eines, das fälschlicherweise mit hoher Sicherheit lügt. Die Forscher fordern daher eine Neugestaltung der Benchmarking-Praxis, um Genauigkeit und Selbstreflexion genauso zu wichten wie Konsistenz und Sicherheit. Obwohl die Idee technisch plausibel ist, ist ihre Umsetzung umstritten. Experten wie Carlos Jimenez von Princeton warnen vor der Komplexität der Bewertung verschiedener Themenbereiche, während Hao Peng von der University of Illinois betont, dass Modelle auch bei neuen Metriken nur allzu gut „gaming“ betreiben könnten. Kritisch ist auch die wirtschaftliche Realität: Wenn ChatGPT zu oft „Ich weiß nicht“ sagt, könnte es an Nutzerinteresse verlieren – ein Problem für ein Unternehmen, das noch auf Wachstum und Gewinnabilität setzt. Wie Delft-Ökonom Servaas Storm bemerkt, steigen die Kosten für Rechenleistung, während die Leistungssteigerung stagniert. Gleichzeitig ist nur ein kleiner Bruchteil der OpenAI-Nutzer bereit, 20 Dollar im Monat zu zahlen. In diesem Umfeld ist es unwahrscheinlich, dass ein Unternehmen als Erster die gängige Praxis bricht. „Wenn LLMs ständig die Fünfte verweigern, können sie nicht falsch liegen – aber sie werden auch nutzlos“, sagt Subbarao Kambhampati von Arizona State University. Die Lösung könnte also weniger in technischen Verbesserungen als in einer fundamentalen Neuausrichtung der Bewertungskultur liegen – eine Herausforderung, die weit über die Forschung hinausgeht und die wirtschaftlichen und nutzergerechten Interessen der AI-Industrie berührt.
