Command Palette
Search for a command to run...
Adam Tauman Kalai Ofir Nachum Santosh S. Vempala Edwin Zhang

Abstract
Wie Schüler, die schwierige Prüfungsfragen gegenüberstehen, raten auch große Sprachmodelle gelegentlich, wenn sie unsicher sind, und produzieren plausibel klingende, aber falsche Aussagen anstelle, ihre Unsicherheit einzuräumen. Solche „Halluzinationen“ treten selbst in modernsten Systemen auf und schädigen das Vertrauen in diese Modelle. Wir argumentieren, dass Sprachmodelle halluzinieren, weil die Trainings- und Bewertungsprozeduren das Raten gegenüber der Anerkennung von Unsicherheit belohnen, und analysieren die statistischen Ursachen dieser Halluzinationen im modernen Trainingspipeline. Halluzinationen brauchen nicht mysteriös zu sein – sie entstehen einfach als Fehler bei der binären Klassifikation. Wenn falsche Aussagen nicht von Fakten unterschieden werden können, dann ergeben sich Halluzinationen in vortrainierten Sprachmodellen durch natürliche statistische Druckverhältnisse. Wir zeigen weiter, dass Halluzinationen bestehen bleiben, weil die meisten Bewertungen nach einem System gestaltet sind, das das Raten bei Unsicherheit belohnt: Sprachmodelle werden darauf optimiert, gute Prüfungsteilnehmer zu sein, und das Raten bei Unsicherheit verbessert die Testleistung. Dieses „Epidemie“ der Bestrafung unsicherer Antworten kann nur durch eine sozio-technische Maßnahme behoben werden: die Neubewertung bestehender Benchmarks, die zwar fehlerhaft, aber dominierend in den Leaderboards sind, anstatt zusätzliche Halluzinationsbewertungen einzuführen. Diese Änderung könnte die Forschung in Richtung vertrauenswürdigere KI-Systeme lenken.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.