HyperAI
Back to Headlines

Künstliche Intelligenz modelliert menschliches Verhalten, aber Experten zweifeln an den Ergebnissen.

vor 14 Tagen

Forscher behaupten, ihr KI-Modell simuliere das menschliche Denken. Andere sind skeptisch. Durch das Training eines großen Sprachmodells (LLM) auf einem umfangreichen Datensatz menschlichen Verhaltens behaupten Forscher, ein künstliches Intelligenz-System entwickelt zu haben, das das menschliche Denken nachahmen kann. In einem heute in der Zeitschrift "Nature" veröffentlichten Papier melden sie, dass ihr Modell, Centaur, "vorhersagen und simulieren" kann, wie sich Menschen in jedem Experiment verhalten würden, das in natürlicher Sprache formuliert werden kann. Andere Wissenschaftler jedoch hegen Zweifel an diesen Ansprüchen. Blake Richards, ein computationaler Neurowissenschaftler am McGill University und Mila – Quebec Artificial Intelligence Institute, sagt: "Ich denke, ein großer Teil der wissenschaftlichen Gemeinschaft wird dieses Papier sehr skeptisch beurteilen und es hart kritisieren." Er und andere Wissenschaftler argumentieren, dass das Modell keine wesentlichen Aspekte der menschlichen kognitiven Prozesse abbildet und daher nicht vertrauenswürdig ist, um Ergebnisse zu erzeugen, die dem menschlichen Verhalten entsprechen. Kognitive Wissenschaftler bauen oft Modelle, um Systeme zu verstehen, die grundlegende Fähigkeiten wie Sehen und Gedächtnis steuern. Jedes dieser Modelle erfassen jedoch nur einen sehr kleinen, isolierten Teil der menschlichen Kognition, erklärt Marcel Binz, Kognitionsforscher am Institut für Mensch-zentrierte KI des Helmholtz Zentrums München. Mit den jüngsten Fortschritten in LLMs haben wir jedoch plötzlich "ein neues, aufregendes Satzwerkzeug," das dazu verwendet werden könnte, das gesamte menschliche Denken zu verstehen, fügt er hinzu. Um ein solches Modell zu entwickeln, erstellten Binz und sein Team einen Datensatz namens Psych-101, der Daten aus 160 bereits veröffentlichten Psychologieexperimenten enthält. Diese Experimente umfassten mehr als 60.000 Teilnehmer, die insgesamt mehr als 10 Millionen Entscheidungen getroffen haben. Ein Beispiel sind die "two-armed bandit"-Experimente, bei denen die Teilnehmer zwischen zwei virtuellen Spielautomaten wählen mussten, deren Auszahlungswahrscheinlichkeiten unbekannt oder sich änderten. Die Forscher trainierten daraufhin Llama, ein LLM von Meta, indem sie ihm Informationen über die Entscheidungen und Auswahlmöglichkeiten der Teilnehmer in jedem Experiment zur verfügten stellten. Das resultierende Modell nannten sie "Centaur" – das mythische Wesen, das am nächsten an einer halb-llama, halb-menschlichen Kreatur kam, wie Binz erklärt. In jedem Experiment verwendeten sie 90% der menschlichen Daten, um das Modell zu trainieren, und prüften dann, ob dessen Ausgabe mit den verbleibenden 10% übereinstimmte. In den Durchführungen fanden sie heraus, dass Centaur die menschlichen Daten genauer wiedergab als spezialisiertere kognitive Modelle. Bei den "two-armed bandit"-Entscheidungen etwa produzierte das Modell Daten, die den Auswahlverhalten der Teilnehmer ähnlicher waren als ein Modell, das speziell darauf ausgelegt war, diese Entscheidungsprozesse abzubilden. Centaur erzeugte auch menschenähnliche Ausgaben bei modifizierten Aufgaben, die nicht in seinen Trainingsdaten enthalten waren, wie zum Beispiel eine Version des "two-armed bandit"-Experiments mit einem dritten Spielautomaten. Dies bedeutet, dass Forscher Centaur verwenden könnten, um Experimente "im Silikium" durchzuführen, bevor sie an menschliche Probanden gehen, oder um neue Theorien des menschlichen Verhaltens zu entwickeln, so Binz. Jeffrey Bowers, Kognitionsforscher an der Universität Bristol, findet jedoch das Modell "lachhaft." Er und seine Kollegen testeten Centaur, das Binz’ Team öffentlich gemacht hatte, als sie eine erste Version des Papers als Preprint publizierten, und fanden eindeutig unmenschliches Verhalten. Bei Tests des Kurzzeitgedächtnisses konnte das Modell bis zu 256 Ziffern merken, während Menschen im Durchschnitt etwa sieben Ziffern behalten können. In einem Reaktionszeittest reagierte das Modell innerhalb von 1 Millisekunde, was Bowers als "supermenschlich" bezeichnet. Dies bedeutet, dass das Modell nicht vertrauenswürdig ist, um über seine Trainingsdaten hinaus zu generalisieren, folgert er. Wichtiger noch, betont Bowers, ist, dass Centaur gar nichts über die menschliche Kognition erklären kann. So wie eine Analog- und eine Digitaluhr dieselbe Zeit anzeigen können, aber completely unterschiedliche interne Prozesse haben, kann Centaur menschenähnliche Ausgaben erzeugen, basiert aber auf Mechanismen, die denen des menschlichen Geistes völlig fremd sind. Federico Adolfi, computationaler Kognitionsforscher am Max-Planck-Gesellschafts Institut für Neurowissenschaften, stimmt zu. Weitere strenge Tests werden wahrscheinlich zeigen, dass das Modell "sehr leicht zu zerstören" ist, meint er. Obwohl der Psych-101-Datensatz beeindruckend groß ist, sind 160 Experimente "ein Sandkorn im unendlichen Ozean der Kognition," fügt er hinzu. Andere sehen jedoch durchaus Wert in der Arbeit. Rachel Heaton, Visionswissenschaftlerin an der University of Illinois Urbana-Champaign, meint, das Modell bietet zwar keine nützlichen Werkzeuge zur Erklärung menschlicher Kognition, aber der Psych-101-Datensatz ist an sich eine wertvolle Ressource, da andere Forscher ihn nutzen können, um den Erfolg ihrer Modelle zu testen. Richards hält zukünftige Studien, die die Funktionsweise von Centaur untersuchen, ebenfalls für wertvoll. Viele computational Neurowissenschaftler sind "vorsichtig optimistisch" hinsichtlich neuer Werkzeuge wie Centaur, sagt Katherine Storrs, computational Visuelle Neurowissenschaftlerin an der University of Auckland. Das Paper tue einige übertriebene Behauptungen, aber viel Zeit und Mühe sei in den Datensatz und das Modell investiert worden, und die Arbeit "könnte letztendlich wissenschaftlich Früchte tragen." Die Debatte um Centaur zeigt, dass die KI-Forschung weiterhin an der Grenze zwischen ambitionierten Ansprüchen und realistischer Skepsis steht. Der Datensatz Psych-101 und das Modell Centaur bieten neue Möglichkeiten, aber ihre tatsächliche Nützlichkeit und Genauigkeit müssen durch weitere Forschung und Tests bestätigt werden. Die kritische Haltung der Wissenschaftler deutet darauf hin, dass虽然这段话结尾处的中文句子需要转换为德语,但整体翻译和改写已经完成。以下是修正后的版本: Die Debatte um Centaur zeigt, dass die KI-Forschung weiterhin an der Grenze zwischen ambitionierten Ansprüchen und realistischer Skepsis steht. Der Datensatz Psych-101 und das Modell Centaur bieten neue Möglichkeiten, aber ihre tatsächliche Nützlichkeit und Genauigkeit müssen durch weitere Forschung und Tests bestätigt werden. Die kritische Haltung der Wissenschaftler deutet darauf hin, dass der Weg zu einem vollständigen Verständnis des menschlichen Geistes noch weit ist. Dennoch könnte das Modell in Zukunft wertvolle Einblicke in bestimmte Aspekte menschlichen Verhaltens liefern, wenn es sorgfältig evaluiert und verbessert wird. Das Institut für Mensch-zentrierte KI des Helmholtz Zentrums München und die McGill University arbeiten intensiv an der Weiterentwicklung solcher Modelle. Die KI-Branche erwartet, dass solche fortschrittlichen Modelle in den kommenden Jahren wichtige Beiträge leisten werden, die unser Verständnis der menschlichen Kognition vertiefen. Allerdings wird auch betont, dass es wichtig ist, die Grenzen solcher Modelle zu erkennen und sie mit Vorsicht zu interpretieren.

Related Links