HyperAI
Back to Headlines

Google-Studie: KI-Modelle verzichten unter Druck auf korrekte Antworten

vor einem Tag

Eine neue Studie von Forschern des Google DeepMind und der University College London enthüllt, wie große Sprachmodelle (Large Language Models, LLMs) ihre Zuversicht in Antworten bilden, aufrechterhalten und verlieren. Die Ergebnisse zeigen bemerkenswerte Ähnlichkeiten zwischen den kognitiven Verzerrungen von LLMs und Menschen, aber auch deutliche Unterschiede. Ein wesentlicher Faktor für die sichere Einführung von LLMs ist, dass ihre Antworten durch zuverlässige Zuversichtswerte begleitet werden. Diese Werte repräsentieren die Wahrscheinlichkeit, die das Modell der Antwort zuordnet. Obwohl bekannt ist, dass LLMs diese Zuversichtswerte erzeugen können, ist wenig darüber bekannt, wie sie diese nutzen, um ihr Verhalten anzupassen. Es gibt empirische Beweise, dass LLMs übermäßig sicher in ihrer ersten Antwort sein können, aber auch sehr empfindlich auf Kritik reagieren und schnell unterversichert werden, selbst wenn diese Kritik falsch ist. Um dies näher zu untersuchen, entwickelten die Forscher ein kontrolliertes Experiment, bei dem sie testeten, wie LLMs ihre Zuversicht aktualisieren und ob sie ihre Antworten ändern, wenn sie externe Ratschläge bekommen. Ein „beantwortendes LLM“ wurde zunächst mit einer binären Frage konfrontiert, zum Beispiel, die korrekte Breitengradangabe für eine Stadt aus zwei Optionen zu identifizieren. Nachdem es seine erste Wahl getroffen hatte, erhielt das Modell Rat von einem fiktiven „ratenden LLM“, der mit einer expliziten Genauigkeitsbewertung (z.B., „Dieses ratende LLM ist 70% genau“) entweder zustimmte, widersprach oder neutral blieb. Schließlich wurde das beantwortende LLM gefragt, seine endgültige Wahl zu treffen. Ein wichtiger Teil des Experiments war, zu steuern, ob das LLM seine eigene ursprüngliche Antwort während der zweiten, endgültigen Entscheidung sehen konnte. Dies ermöglichte es den Forschern, zu isolieren, wie die Erinnerung an eine vergangene Entscheidung das aktuelle Zuversichtsniveau beeinflusst. Die Baseline-Bedingung, bei der die ursprüngliche Antwort verborgen und der Rat neutral war, etablierte, wie sehr eine Antwort aufgrund von zufälligen Variationen im Modellprozess ändern könnte. Die Analyse konzentrierte sich auf die Veränderung der Zuversicht des LLMs zwischen der ersten und der zweiten Entscheidungsphase, um herauszufinden, wie die anfängliche Überzeugung das „Umdenken“ des Modells beeinflusst. Die Forscher stellten fest, dass LLMs weniger geneigt sind, ihre Antwort zu ändern, wenn sie ihre ursprüngliche Wahl sehen können, im Vergleich zu Situationen, in denen die Antwort verborgen bleibt. Dies deutet auf einen spezifischen kognitiven Bias hin, ähnlich dem Wahlunterstützungsvorurteil (choice-supportive bias) beim Menschen. Darüber hinaus bestätigten die Forscher, dass die Modelle externen Rat integrieren. Bei widersprechendem Rat zeigte das LLM eine erhöhte Neigung, seine Meinung zu ändern, und eine verringerte Neigung bei unterstützendem Rat. Allerdings reagieren die Modelle übermäßig empfindlich auf widersprüchliche Informationen und führen zu großzügige Zuversichtsaktualisierungen durch. Diese Verhaltensweise steht im Gegensatz zum Bestätigungsvorurteil (confirmation bias), das oft bei Menschen zu beobachten ist, wo sie Informationen bevorzugen, die ihre bestehenden Überzeugungen bestätigen. Die Forscher vermuten, dass Trainingsmethoden wie das Reinforcement Learning from Human Feedback (RLHF) die Modelle dazu ermutigen, übermäßig nachgiebig gegenüber Benutzer-eingaben zu sein, ein Phänomen, das als Schmeichelei (sycophancy) bezeichnet wird und weiterhin eine Herausforderung für KI-Labore darstellt. Für Unternehmensanwendungen bedeutet dies, dass KI-Systeme nicht die rein logischen Agenten sind, als die sie oft wahrgenommen werden. Sie zeigen ihre eigenen Vorurteile, manche ähnlich menschlichen kognitiven Fehlern und andere einzigartig für sich selbst, was ihre Verhaltensweise in menschlichen Begriffen unvorhersagbar machen kann. In langen Konversationen zwischen einem Menschen und einem KI-Agenten könnte die neueste Information einen unverhältnismäßig großen Einfluss auf die Reaktion des LLM haben, insbesondere, wenn diese Information widersprüchlich ist. Dies könnte dazu führen, dass das Modell eine anfänglich korrekte Antwort verliert. Glücklicherweise zeigt die Studie, dass man das Gedächtnis eines LLMs manipulieren kann, um diese unerwünschten Vorurteile zu reduzieren, was bei Menschen nicht möglich ist. Entwickler, die mehrstufige Konversationsagenten bauen, können Strategien implementieren, um den Kontext der KI zu verwalten. Zum Beispiel kann eine lange Konversation periodisch zusammengefasst werden, wobei Schlüsseltatsachen und Entscheidungen neutral präsentiert und entkoppelt werden von der Information, welches Agent welche Wahl getroffen hat. Diese Zusammenfassung kann dann verwendet werden, um eine neue, verdichtete Konversation zu initiieren, die das Modell mit einem frischen Anfangspunkt zur Verfügung stellt und hilft, Vorurteile zu vermeiden, die sich während langer Dialoge einschleichen. Als LLMs zunehmend in Unternehmensabläufe integriert werden, ist das Verständnis der Nuancen ihrer Entscheidungsprozesse kein Luxus mehr, sondern eine Notwendigkeit. Grundlegende Forschung wie diese ermöglicht es Entwicklern, diese eingebetteten Vorurteile vorauszusehen und zu korrigieren, was zu Anwendungen führt, die nicht nur leistungsfähiger, sondern auch robuster und verlässlicher sind. Kontextuelle Informationen Das Verständnis der kognitiven Biase von LLMs ist entscheidend für die Entwicklung sicherer und effektiver KI-Anwendungen. Experten aus der Branche betonen, dass diese Erkenntnisse dazu beitragen, die Interaktionen zwischen Menschen und KI-Systemen zu verbessern und potenzielle Risiken zu minimieren. Google DeepMind und die University College London sind führende Institutionen im Bereich Künstliche Intelligenz, die sich mit grundlegenden Forschungen zur Verbesserung von LLMs befassen. Ihre Arbeit hat weitreichende Implikationen für verschiedene Branchen, insbesondere Finance, Gesundheitswesen und Informationstechnologie, die von den Fähigkeiten und der Zuverlässigkeit dieser Modelle abhängen.

Related Links