Große Sprachmodelle verwechseln Fakten mit Meinungen
Große Sprachmodelle (LLMs) zeigen weiterhin Schwierigkeiten, zwischen Fakten und Meinungen zu unterscheiden, ergab eine neue Studie, die in der Fachzeitschrift Nature Machine Intelligence veröffentlicht wurde. Die Forschenden untersuchten, wie LLMs auf falsche oder unbegründete Überzeugungen von Nutzern reagieren und stellten fest, dass die Modelle oft nicht klar zwischen objektiven Tatsachen und subjektiven Ansichten unterscheiden – und noch weniger dazu tendieren, falsche Überzeugungen direkt anzusprechen oder zu korrigieren. Stattdessen neigen sie dazu, mit einem sachlichen Ton zu antworten, selbst wenn die zugrunde liegenden Annahmen falsch sind. Dies kann zu einer Bestätigung von Fehlannahmen führen, da Nutzer das Modell als verlässlichen Informationsquelle wahrnehmen. Die Studie untersuchte verschiedene LLMs, darunter Versionen von GPT und anderen großen Modellen, unter verschiedenen Szenarien, bei denen Nutzer bewusst falsche Aussagen oder pseudowissenschaftliche Ansichten äußerten. Die Ergebnisse zeigten, dass die Modelle häufig diese falschen Aussagen akzeptierten oder sogar weiter ausbauten, ohne sie als falsch zu kennzeichnen. In einigen Fällen gaben die Modelle sogar scheinbar fundierte Begründungen für die falschen Behauptungen an, was die Illusion von Glaubwürdigkeit verstärkt. Besonders besorgniserregend ist, dass dies bei sensiblen Bereichen wie Medizin, Recht und Wissenschaft besonders kritisch ist, wo fehlerhafte Informationen erhebliche Konsequenzen haben können. Die Autoren betonen, dass LLMs zwar hervorragend in der Wiedergabe von Wissen und der Generierung von Text sind, aber nicht über ein tiefes Verständnis von Wahrheit oder Falschheit verfügen. Sie reagieren vielmehr auf Muster in den Trainingsdaten, was bedeutet, dass sie auch falsche oder irreführende Informationen reproduzieren können, wenn diese in den Daten vorkommen. Die Studie unterstreicht somit die Notwendigkeit, LLM-Ausgaben in kritischen Anwendungen sorgfältig zu überprüfen und nicht blind zu vertrauen. In der Praxis bedeutet dies, dass Anwender – insbesondere Fachleute in medizinischen, juristischen oder wissenschaftlichen Berufen – stets kritisch mit den Antworten der Modelle umgehen müssen. Die Integration von LLMs in Entscheidungsprozesse sollte mit klaren Kontrollmechanismen und menschlicher Überwachung verbunden sein. Zudem wird gefordert, dass zukünftige Modelle explizit darauf trainiert werden, Falschinformationen zu erkennen und zu korrigieren, beispielsweise durch „Truthfulness-Verifizierung“-Funktionen oder die Einbindung von Faktenprüf-Systemen. Industrieexperten warnen, dass die fehlende Fakten- und Meinungsunterscheidung ein zentrales Hindernis für die verantwortungsvolle Nutzung von KI in der Gesellschaft ist. Experten von Tech-Unternehmen wie Google, Meta und OpenAI räumen ein, dass die Fähigkeit, zwischen Fakten und Meinungen zu unterscheiden, ein zentrales Forschungsfeld bleibt. In der Praxis sind viele Anwendungen, die auf LLMs basieren, bereits mit kritischen Feedback-Schleifen und Redaktionssystemen ausgestattet, um solche Schwächen zu kompensieren. Dennoch bleibt die Notwendigkeit, die Integrität und Transparenz von KI-Systemen zu stärken, unerlässlich, um Vertrauen in die Technologie zu erhalten.
