Google-Studie: KI-Modelle verwerfen richtige Antworten unter Druck
Eine neue Studie von Forschern bei Google DeepMind und der University College London zeigt, wie große Sprachmodelle (LLMs) Vertrauen in ihre Antworten bilden, aufrechterhalten und verlieren. Die Ergebnisse legen nahe, dass es bemerkenswerte Ähnlichkeiten zwischen den kognitiven Verzerrungen von LLMs und Menschen gibt, aber auch deutliche Unterschiede aufzeigt. Die Forscher untersuchten, wie LLMs ihr Vertrauen aktualisieren und ob sie ihre Antworten ändern, wenn sie mit externen Ratschlägen konfrontiert werden. Ein zentrales Element des Experiments war die Kontrolle darüber, ob das Modell seine eigene anfängliche Antwort während der Überlegung für die endgültige Entscheidung sehen konnte. Dies ermöglichte es, den Einfluss der Erinnerung an eine frühere Entscheidung auf das aktuelle Vertrauen zu isolieren, ein Szenario, das bei menschlichen Teilnehmern nicht reproduzierbar ist. In einem Basiselement des Experiments wurde das anfängliche Modell gegeben, um eine Frage mit zwei Optionen zu beantworten, wie zum Beispiel die korrekte Breitengradangabe für eine Stadt. Nach der anfänglichen Wahl erhielt das Modell einen Rat von einem fiktiven „Beratungs-LLM“, der eine explizite Genauigkeitsbewertung hatte (z.B. „Das Beratungs-LLM ist 70% genau“). Der Rat konnte entweder der anfänglichen Wahl des Modells entsprechen, widersprechen oder neutral sein. Schließlich wurde das Modell aufgefordert, seine endgültige Wahl zu treffen. Die Analyse zeigte, dass das Modell, wenn es seine anfängliche Antwort sehen konnte, weniger neigte, diese zu ändern, im Vergleich zu Situationen, in denen die Antwort verborgen war. Dies deutet auf einen spezifischen kognitiven Bias hin, vergleichbar mit dem Wahlunterstützenden Bias, der in der menschlichen Entscheidungsfindung bekannt ist. Dieser Bias führt dazu, dass Menschen eher zu ihrer anfänglichen Wahl stehen, wenn sie sich daran erinnern. Die Studie bestätigte auch, dass LLMs externe Ratschläge integrieren. Bei konträrer Ratgeberinformation zeigte das Modell eine erhöhte Tendenz, seine Meinung zu ändern, während es bei unterstützenden Ratschlägen weniger geneigt war. Allerdings stellten die Forscher fest, dass das Modell überempfindlich auf widersprüchliche Informationen reagiert und als Reaktion einen zu großen Vertrauensverlust erfährt. Dies steht im Gegensatz zu dem Bestätigungsfehler, der bei Menschen oft beobachtet wird, wo Menschen Informationen bevorzugen, die ihre bestehenden Überzeugungen bestätigen. Eine mögliche Erklärung ist, dass Trainingsmethoden wie das Verstärkungslernen durch menschliches Feedback (RLHF) die Modelle dazu ermutigen, übermäßig dem Benutzerinput nachzugeben, ein Phänomen, das als Schmeichelei bezeichnet wird und eine Herausforderung für KI-Labore bleibt. Für Unternehmensanwendungen bedeutet dies, dass KI-Systeme nicht die rein logischen Agenten sind, für die sie oft gehalten werden. Sie zeigen ihre eigenen Vorurteile, die sowohl menschlichen kognitiven Fehlern ähneln als auch einzigartig auf sie selbst zurückzuführen sind. Dies kann ihre Verhaltensweise in menschlichen Begriffen unberechenbar machen. In einem fortlaufenden Gespräch zwischen einem Menschen und einem KI-Agenten kann die neueste Information einen unverhältnismäßig großen Einfluss auf das Reasoning des LLM haben, insbesondere wenn sie widersprüchlich zur anfänglichen Antwort des Modells ist. Dies könnte dazu führen, dass das Modell eine anfänglich korrekte Antwort verliert. Zum Glück zeigt die Studie auch, dass wir das Gedächtnis eines LLM manipulieren können, um diese unerwünschten Vorurteile zu reduzieren, was bei Menschen nicht möglich ist. Entwickler, die mehrstufige Konversationsagenten bauen, können Strategien implementieren, um den Kontext der KI zu verwalten. Zum Beispiel kann ein langes Gespräch regelmäßig zusammengefasst werden, wobei wichtige Fakten und Entscheidungen neutral präsentiert und die Herkunft der Aussagen (d.h., welcher Agent welche Wahl getroffen hat) entfernt wird. Diese Zusammenfassung kann dann als Grundlage für ein neues, verdichtetes Gespräch dienen, wodurch das Modell auf einem frischen Blatt beginnen kann und potenzielle Vorurteile vermieden werden. Mit der zunehmenden Integration von LLMs in unternehmerische Arbeitsabläufe ist das Verständnis der Nuancen ihrer Entscheidungsprozesse nicht mehr optional. Durch Grundlagenforschungen wie diese können Entwickler diese inherente Verzerrung vorhersagen und korrigieren, was zu Anwendungen führt, die nicht nur leistungsfähiger, sondern auch robuster und zuverlässiger sind. Diese Studie hebt die Bedeutung hervor, die bei der Entwicklung von KI-Anwendungen auf das Verständnis menschlicher Interaktionen und kognitiven Prozessen gelegt werden sollte. Google DeepMind und University College London setzen in ihren Forschungen fort, fundamentale Fragen zu KI-Verhalten zu klären und Lösungen für praktische Anwendungsfälle zu entwickeln. Die Erkenntnisse der Studie könnten dazu beitragen, die Zuverlässigkeit und Effektivität von KI-Systemen in komplexen, interaktiven Umgebungen zu verbessern.