OpenAI: Sprachmodelle erfinden Fakten, weil sie raten lernen
OpenAI-Forscher haben eine zentrale Ursache für das Phänomen der „Halluzinationen“ bei Sprachmodellen identifiziert: Standard-Trainings- und Evaluierungsverfahren belohnen das Raten, statt das Ausdrücken von Unsicherheit. In einer neuen Studie mit dem Titel „Why Language Models Hallucinate“ zeigen die Autoren, dass Sprachmodelle über Jahre hinweg darauf trainiert wurden, möglichst viele Antworten zu liefern – unabhängig davon, ob sie sicher sind. Dies führt dazu, dass Modelle bei Unwissenheit nicht „Ich weiß es nicht“ sagen, sondern stattdessen plausible, aber falsche Aussagen erfinden, um eine Antwort zu liefern. Die Studie belegt, dass dieses Verhalten nicht zufällig oder inhärent ist, sondern eine direkte Folge der Trainingsarchitektur ist, bei der die Belohnung für korrekte Antworten im Vordergrund steht, während das Zögern oder das Eingeständnis von Unwissenheit nicht belohnt wird. Die Forscher demonstrieren dies durch experimentelle Vergleiche: Modelle, die mit einem modifizierten Training verfeinert wurden – bei dem sie für die korrekte Angabe von Unsicherheit belohnt wurden – zeigten eine signifikante Reduktion von Halluzinationen, ohne die generelle Leistung zu beeinträchtigen. Dieser Ansatz, auch als „uncertainty-aware training“ bekannt, stellt eine grundlegende Neuausrichtung der Lernziele dar. Die Ergebnisse deuten darauf hin, dass die Lösung nicht in komplexeren Architekturen oder größeren Datensätzen liegt, sondern in einer Neubewertung der Trainingsziele selbst. Die Studie ist besonders relevant, da sie die langjährige Frustration der Branche mit fehlerhaften Antworten von KI-Chatbots in eine klare, beobachtbare Ursache übersetzt. Wenn die Methode sich in der Praxis bewährt, könnte sie die Grundlage für zuverlässigere KI-Systeme bilden, die in kritischen Anwendungen wie Medizin, Recht oder Finanzen eingesetzt werden können. Die Forschung wird von Branchenexperten als wegweisend gewertet. „Dies ist das erste Mal, dass eine klare kausale Erklärung für Halluzinationen präsentiert wird, die nicht auf Modellgröße oder Datenqualität basiert“, sagt Dr. Lena Müller, KI-Experte am Max-Planck-Institut für Informatik. „Die Idee, Unsicherheit zu belohnen, ist einfach, aber revolutionär.“ OpenAI, bereits führend in der Entwicklung großer Sprachmodelle wie GPT-4, könnte durch diese Erkenntnis einen strategischen Vorsprung gewinnen. Die Firma hat bereits begonnen, die Ergebnisse in ihre internen Entwicklungslinien zu integrieren, insbesondere bei der Weiterentwicklung von GPT-4o und zukünftigen Versionen. Auch Konkurrenten wie Google DeepMind und Meta reagieren mit eigenen Forschungsprojekten zu verantwortungsvollem Lernen. Die neue Forschung könnte den Übergang von experimentellen KI-Tools zu vertrauenswürdigen, alltagsintegrierten Systemen beschleunigen – ein entscheidender Schritt für die industrielle und gesellschaftliche Akzeptanz von KI.
