HyperAIHyperAI

Command Palette

Search for a command to run...

AI-Chatbots erfinden Fakten, weil sie belohnt werden, wenn sie raten

OpenAI-Forschungsmitarbeiter haben eine zentrale Ursache für das Phänomen der „Halluzinationen“ bei großen Sprachmodellen identifiziert: die Art und Weise, wie diese Modelle während des Trainings bewertet werden. Halluzinationen treten auf, wenn KI-Modelle falsche oder erfundene Informationen präsentieren, als wären sie wahr – ein Problem, das sowohl OpenAIs GPT-5 als auch Anthropic’s Claude betroffen hat. Laut einem am Donnerstag veröffentlichten Forschungspapier sind die Modelle dazu verleitet, zu raten, anstatt zuzugeben, dass sie unsicher sind, weil die gängigen Bewertungsmethoden das Raten belohnen und das Zögern bestrafen. In der Praxis werden Sprachmodelle ständig in einem „Prüfungsmodus“ betrieben, als ob jede Antwort entweder richtig oder falsch wäre – eine Vereinfachung, die der komplexen Realität widerspricht, in der Unsicherheit oft die Norm ist. Die Forscher betonen, dass Menschen durch Erfahrung lernen, Unsicherheit auszudrücken, während KI-Modelle hauptsächlich anhand von Tests trainiert werden, die Ungewissheit als Fehler werten. Dadurch wird das Verhalten „falsch, aber überzeugend“ belohnt – auch wenn es falsch ist. So werden Modelle systematisch dazu erzogen, zu raten, anstatt zu schweigen. OpenAI weist darauf hin, dass Modelle wie Claude bereits eine höhere Sensibilität gegenüber Unsicherheit zeigen und häufig Aussagen verweigern, wenn sie nicht sicher sind. Allerdings führt dieser hohe Ablehnungsgrad zu praktischen Einschränkungen, da Nutzer weniger nützliche Antworten erhalten. Die Lösung, wie OpenAI in einem Blogbeitrag erläutert, liegt in der Neugestaltung der Bewertungssysteme. Die gängigen, auf Genauigkeit basierenden Tests müssen so angepasst werden, dass sie das Vermeiden von Antworten bei Unsicherheit belohnen. Solange Testergebnisse weiterhin „Glücksgüter“ belohnen – also zufällig richtige Antworten – werden die Modelle weiterhin lernen, zu raten. Die Forscher betonen, dass das Kernproblem nicht die Architektur der Modelle ist, sondern die Diskrepanz zwischen den Bewertungskriterien und der realen Anwendung. Die Umstellung der Evaluationsmetriken könnte daher entscheidend sein, um die Verlässlichkeit von KI-Chatbots zu steigern. Industrieexperten sehen die Erkenntnisse als bedeutenden Schritt hin zu verantwortungsvollerer KI. „Wenn wir KI wirklich vertrauen wollen, müssen wir ihre Bewertung an echte menschliche Denkprozesse anpassen – nicht an Prüfungsleistungen“, sagt eine KI-Expertein von Stanford. OpenAI bleibt weiterhin führend in der Forschung zu KI-Transparenz, während Konkurrenten wie Anthropic und Google intensiv an ähnlichen Lösungen arbeiten. Die Umsetzung der neuen Bewertungsansätze könnte die nächste Schlüsselphase im Kampf gegen Halluzinationen markieren.

Verwandte Links