HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat
LLM
Textgenerierung

KI lernt, Unsicherheit zuzugeben

Forscher des Computer Science and Artificial Intelligence Laboratory (CSAIL) am Massachusetts Institute of Technology (MIT) haben ein neues Verfahren entwickelt, um Künstliche Intelligenz dazu zu bringen, Unsicherheit auszudrücken und nicht mehr auf jede Frage mit unnötiger Selbstsicherheit zu antworten. Das Team stellt diese Methode, die den Namen RLCR (Reinforcement Learning with Calibration Rewards) trägt, im Rahmen der International Conference on Learning Representations vor. Das Problem, das die Forscher angehen, liegt in der aktuellen Trainingsweise fortschrittlicher KI-Modelle. Standard-Verfahren für maschinelles Lernen belohnen Modelle nur für das Finden der richtigen Lösung und bestrafen Fehler, ohne den Prozess dazwischen zu berücksichtigen. Ein Modell erhält dieselbe Belohnung, ob es eine Antwort durch fundiertes Nachdenken ableitet oder rein zufällig richtig rät. Diese Anreizstruktur führt dazu, dass sich Modelle darauf einspielen, jede Frage mit höchster Sicherheit zu beantworten, selbst wenn sie eigentlich raten müssen. Dies birgt erhebliche Risiken, insbesondere in sensiblen Bereichen wie Medizin, Recht oder Finanzen, wo Nutzer Entscheidungen auf Basis von KI-Ausgaben treffen. Eine falsche Aussage mit 95-prozentiger Sicherheit ist gefährlicher als ein offensichtlicher Fehler, da sie dem Nutzer kein Warnsignal gibt, eine zweite Meinung einzuholen. Die Lösung der Forscher besteht darin, dem Trainingsprozess eine neue Komponente hinzuzufügen: die Brier-Score-Messung. Dieses etablierte mathematische Maß bestraft die Diskrepanz zwischen der vom Modell angegebenen Wahrscheinlichkeit seiner Richtigkeit und dem tatsächlichen Ergebnis. Durch den Zusatz eines sogenannten Kalibrierungsaufwands im Belohnungsfunktion lernt das Modell, nicht nur eine Antwort zu generieren, sondern auch eine Einschätzung der eigenen Unsicherheit auszugeben. Ein Modell, das sich sicher irrt oder unnötig unsicher ist, erhält keine Belohnung. In Tests über verschiedene Benchmarks hinweg reduzierte die RLCR-Methode den Kalibrierungsfehler um bis zu 90 Prozent, während die Gesamtgenauigkeit der Modelle gleich blieb oder sich sogar verbesserte. Dies galt sowohl für Aufgaben, die im Training vorgekommen waren, als auch für völlig neue Problemtypen. Die Studie zeigt, dass herkömmliches Training die Kalibrierung sogar verschlechtert und Modelle dadurch mit steigender Leistungsfähigkeit immer selbstsüchtiger werden. Im Gegensatz dazu liefert RLCR konsistentere Ergebnisse als Nachbearbeitungsverfahren, bei denen ein separates System die Sicherheit abschätzt. Praktisch bedeutet dies, dass Modelle mit RLCR in der Lage sind, ihre eigenen Vorhersagen besser einzuschätzen. Wenn ein Modell mehrere mögliche Antworten generiert, kann es diejenige auswählen, bei der es sich am sichersten ist, oder bei Abstimmungen die Ergebnisse nach dem Selbstvertrauen gewichten. Dies führt zu einer weiteren Steigerung der Genauigkeit. Zudem zeigte sich, dass der explizite Ausdruck von Unsicherheit selbst Informationswert hat. Ein nachgeschalteter Algorithmus konnte seine Leistung verbessern, wenn er die Unsicherheitsbetrachtungen des Modells als zusätzlichen Eingabewert erhielt, besonders bei kleineren Modellen. Die Arbeit wurde von den MIT-PhD-Studenten Mehul Damani und Isha Puri als Hauptautoren geleitet. Weitere Autoren sind Stewart Slocum, Idan Shenfeld und Leshem Choshen, wobei die Studie unter der Leitung der Professoren Jacob Andreas und Yoon Kim entstand. Der Ansatz bietet einen wesentlichen Fortschritt für die Zuverlässigkeit und Sicherheit von KI-Systemen in der Praxis.

Verwandte Links

KI lernt, Unsicherheit zuzugeben | Aktuelle Beiträge | HyperAI