Studie: KI-Modelle verstehen die reale Welt
Laut einer neuen Studie der Brown University verfügen KI-Sprachmodelle über ein gewisses Verständnis der realen Welt. Die Forschung, die am 25. April auf der International Conference on Learning Representations in Rio de Janeiro vorgestellt wurde, zeigt, dass diese Modelle in der Lage sind, den Unterschied zwischen alltäglichen, unwahrscheinlichen, unmöglichen und unsinnigen Ereignissen zu erkennen. Die Ergebnisse deuten darauf hin, dass die Modelle kausale Einschränkungen der Realität kodiert haben, die menschlichen Urteilen zu diesen Kategorien entsprechen. Der leitende Forscher Michael Lepori, ein Doktorand an der Brown University, untersucht gemeinsam mit den Professoren Ellie Pavlick und Thomas Serre die Schnittstelle zwischen Informatik und menschlicher Kognition. Im Rahmen der Studie analysierten die Wissenschaftler, wie verschiedene Sprachsysteme Sätze interpretieren, die Ereignisse unterschiedlicher Plausibilität beschreiben. Dazu gehörten alltägliche Szenarien, wie das Abkühlen eines Getränks mit Eis, sowie unwahrscheinliche, unmögliche oder unsinnige Handlungen, wie das Kühlen mit Schnee, Feuer oder einem Datum. Zur Auswertung wandten die Forscher die Methode der mechanistischen Interpretierbarkeit an, die Lepori als vergleichbar mit der Neurobiologie für KI-Systeme bezeichnet. Diese Technik ermöglicht es, die internen mathematischen Zustände eines Modells zu untersuchen, wenn es mit bestimmten Eingaben konfrontiert wird. Indem die Forscher die Unterschiede in diesen Zuständen bei Satzpairs aus verschiedenen Kategorien verglichen, konnten sie feststellen, ob und wie gut die Modelle intern zwischen diesen Kategorien differenzieren. Die Experimente wurden mit mehreren Open-Source-Modellen wiederholt, darunter GPT-2 von OpenAI, Llama 3.2 von Meta und Gemma 2 von Google, um modellübergreifende Ergebnisse zu erzielen. Die Studie kam zu dem Schluss, dass Modelle mit ausreichender Größe ausgeprägte mathematische Muster entwickeln, die stark mit jeder Plausibilitätskategorie korrelieren. Diese Muster unterscheiden selbst zwischen sehr ähnlichen Kategorien, wie beispielsweise unwahrscheinlichen und unmöglichen Ereignissen, mit einer Genauigkeit von etwa 85 Prozent. Ein bemerkenswertes Ergebnis ist, dass diese mathematischen Vektoren die menschliche Unsicherheit bei der Bewertung von Aussagen widerspiegeln. Bei Aussagen, die von Menschen unterschiedlich bewertet werden, zum Beispiel ob eine Handlung unmöglich oder lediglich unwahrscheinlich ist, stimmen auch die Wahrscheinlichkeitszuweisungen der Modelle mit den menschlichen Antworten überein. Wenn 50 Prozent der Menschen eine Aussage für unmöglich und 50 Prozent für unwahrscheinlich halten, weist das Modell ebenfalls eine ungefähre 50-prozentige Wahrscheinlichkeit für eine dieser Kategorien aus. Die Ergebnisse legen nahe, dass moderne KI-Sprachmodelle ein Verständnis der realen Welt entwickeln, das dem menschlichen Verständnis nachempfunden ist. Dieser Prozess setzt bereits bei Modellen mit mehr als zwei Milliarden Parametern ein, was im Vergleich zu heutigen Modellen mit Billionen von Parametern als relativ gering betrachtet werden kann. Forscher hoffen, dass Studien dieser Art helfen werden, besser zu verstehen, was KI-Modelle wissen und wie sie zu diesem Wissen gelangen, um zukünftig intelligentere und vertrauenswürdigere Systeme zu entwickeln.
