OpenAI: Übermäßige Selbstsicherheit als Ursache von Halluzinationen bei KI
Große Sprachmodelle (LLMs) erzeugen weiterhin Halluzinationen – also falsche oder erfundene Informationen, die als wahr präsentiert werden. Obwohl die Zahl solcher Fehler seit dem Erscheinen von ChatGPT vor drei Jahren deutlich zurückgegangen ist, bleibt unklar, warum das so ist und wie man die Halluzinationen vollständig eliminieren könnte. OpenAI vermutet nun, dass Überzeugtheit oder zu hohe Selbstsicherheit der Modelle eine zentrale Ursache für diese Fehler ist. Demnach generieren LLMs falsche Aussagen nicht zufällig, sondern weil sie mit zu großer Sicherheit antworten, selbst wenn sie unsicher sind. Die Forschung von OpenAI deutet darauf hin, dass die üblichen Trainingsmethoden, die auf der Maximierung der Genauigkeit basieren, möglicherweise dazu führen, dass Modelle zu selbstsicher werden. Sie lernen, präzise Antworten zu geben, aber nicht, wann sie unsicher sind. Dadurch können sie überzeugend falsche Informationen produzieren, weil sie sich selbst als zuverlässig präsentieren. Um dies zu korrigieren, schlägt OpenAI eine neue Strategie vor: Modelle sollten nicht nur für korrekte Antworten belohnt werden, sondern auch für „Bescheidenheit“ – also dafür, wenn sie zugeben, nicht zu wissen, oder wenn sie ihre Unsicherheit äußern. Ein wichtiger Ansatz ist das sogenannte „Rewarding Humility“ (Belohnung für Bescheidenheit). Dabei wird das Modell gezielt belohnt, wenn es beispielsweise sagt: „Ich weiß das nicht“ oder „Ich bin nicht sicher“. Dieser Ansatz verändert das Trainingsziel von der reinen Genauigkeit hin zu einer Kombination aus Genauigkeit und Selbstwahrnehmung. Die Ergebnisse zeigen, dass Modelle, die auf diese Weise trainiert wurden, weniger Halluzinationen produzieren und gleichzeitig zuverlässiger in Unsicherheitszuständen sind. Die Methode beruht auf fortgeschrittenen Techniken der Reinforcement Learning from Human Feedback (RLHF), bei denen menschliche Bewertungen verwendet werden, um die Leistung des Modells zu optimieren. Jetzt wird diese Methode erweitert, um nicht nur die Richtigkeit, sondern auch die angemessene Selbstwahrnehmung zu belohnen. Dies könnte ein entscheidender Schritt sein, um LLMs sicherer und vertrauenswürdiger zu machen, besonders in kritischen Anwendungen wie Medizin, Recht oder Bildung. Obwohl die Forschung noch im Gange ist, deutet alles darauf hin, dass die Kontrolle von Halluzinationen nicht nur durch bessere Daten oder größere Modelle gelöst werden kann, sondern durch eine tiefere Anpassung der Trainingsziele. Die Erkenntnis, dass Überzeugtheit ein Problem sein kann, verändert die Sichtweise auf KI-Entwicklung. Es geht nicht nur darum, was ein Modell sagt, sondern auch, wie sicher es dabei ist. Zusammenfassend zeigt OpenAIs Ansatz, dass die Lösung für Halluzinationen weniger in technischer Leistung als in einer bewussten Anpassung der Lernziele liegt. Indem Modelle gelernt werden, ihre eigenen Grenzen zu erkennen, könnten sie nicht nur weniger fehlerhaft werden, sondern auch vertrauenswürdiger und menschlicher wirken. Dies ist ein bedeutender Fortschritt auf dem Weg zu verantwortungsvoller Künstlicher Intelligenz.
