Studie zeigt: KI kann Konzept von Blume nicht wie Menschen verstehen
Warum KI ein Blumenkonzept nicht so verstehen kann wie Menschen Selbst mit all seiner Ausbildung und Rechenleistung kann eine KI-Werkzeug wie ChatGPT das Konzept einer Blume nicht so darstellen, wie ein Mensch es tut, zeigt eine neue Studie. Dies liegt daran, dass die großen Sprachmodelle (LLMs), die hinter KI-Assistenten stehen, in der Regel nur auf Sprache basieren und manchmal auch auf Bilder. „Ein großes Sprachmodell kann die Duftnote einer Rose nicht wahrnehmen, den seidenen Touch der Kornblumenblätter nicht spüren oder durch ein Feld von Wildblumen wandeln“, erklärte Qihui Xu, Hauptautor der Studie und Postdoktorand für Psychologie an der Ohio State University. „Ohne diese sensorischen und motorischen Erfahrungen kann es das Konzept einer Blume in all ihrer Vielfalt nicht wirklich erfassen. Das gleiche gilt für andere menschliche Konzepte.“ Die Studie wurde im Journal Nature Human Behaviour veröffentlicht. Xu sagte, die Ergebnisse hätten Auswirkungen auf die Weise, wie KI und Menschen miteinander interagieren. „Wenn KI die Welt grundlegend anders als Menschen wahrnimmt, könnte dies die Interaktionen zwischen uns beeinflussen“, betonte sie. Xu und ihre Kollegen verglichen Menschen und LLMs in ihrer Darstellung von Wissenskonzepten für 4.442 Wörter, die von „Blume“ und „Huf“ bis zu „lustig“ und „Schwingung“ reichen. Sie verglichen die Ähnlichkeit der Darstellungen zwischen Menschen und den beiden führenden LLM-Familien von OpenAI (GPT-3.5 und GPT-4) sowie von Google (PaLM und Gemini). Zwei Maßstäbe wurden verwendet, um die Darstellungen zu bewerten. Der erste, die Glasgow Norms, fragt nach Bewertungen von Wörtern auf neun Dimensionen, wie etwa Erregung, Konkretizität und Bildhaftigkeit. Zum Beispiel werden Fragen gestellt, wie emotional erregend eine Blume ist und wie gut man sich eine Blume mental vorstellen kann. Der zweite Maßstab, die Lancaster Norms, untersucht, wie Konzepte von Wörtern mit sensorischer Information (wie Berührung, Gehör, Geruch, Sehen) und motorischer Information, die mit Handlungen verbunden sind, korrelieren. Zum Beispiel werden Fragen gestellt, wie stark man Blumen durch den Geruch wahrnimmt und wie viel man durch Körperbewegungen wie das Berühren mit dem Oberkörper erlebt. Das Ziel war es, die Übereinstimmung zwischen den LLMs und den Menschen in ihren Bewertungen der Wörter zu prüfen. In einer Analyse untersuchten die Forscher, wie stark die Korrelation zwischen den Konzepten von Menschen und KI war. Zum Beispiel, ob LLMs und Menschen übereinstimmen, dass bestimmte Konzepte höheren emotionalen Erregungswerten zugeordnet werden. In einer zweiten Analyse untersuchten die Forscher, wie Menschen und LLMs die verschiedenen Dimensionen beurteilten, die zu einer gesamten Konzeptdarstellung eines Wortes beitragen, und wie verschiedene Wörter miteinander vernetzt sind. Zum Beispiel könnten die Konzepte von „Pasta“ und „Rosen“ beide hohe Bewertungen für die Wahrnehmung durch den Geruch erhalten. Menschlich betrachtet ist Pasta jedoch ähnlicher zu Nudeln als zu Rosen, nicht nur wegen des Geruchs, sondern auch wegen des visuellen Erscheinungsbilds und des Geschmacks. Überall, wo Wörter keine Verbindung zu den Sinnen oder motorischen Aktionen haben, leisteten die LLMs sehr gute Arbeit bei der Darstellung der Konzepte. Bei Wörtern, die mit Dingen verknüpft sind, die wir sehen, schmecken oder körperlich erleben, scheitern die KI-Modelle daran, menschliche Konzepte vollständig zu erfassen. „Vom intensiven Aroma einer Blume über das lebendige, seidige Gefühl, wenn wir Blütenblätter streicheln, bis hin zum tiefen Freude, die es auslöst, bündelt die menschliche Darstellung von ‚Blume‘ diese vielfältigen Erfahrungen und Interaktionen zu einem kohärenten Konzept“, heißt es in der Studie. Das Problem ist, dass die meisten LLMs allein auf Sprache angewiesen sind, und „Sprache alleine kann die Konzeptdarstellung in ihrer ganzen Fülle nicht vollständig wiederherstellen“, fügte Xu hinzu. Obwohl LLMs in der Lage sind, einige menschliche Konzepte zu approximieren, insbesondere wenn sie nicht die Sinne oder motorische Aktionen betreffen, ist dieses Lernen nicht effizient. „Sie erlangen ihr Wissen, indem sie enorme Mengen an Text verarbeiten – Größenordnungen größer als ein Mensch in seinem ganzen Leben je ausgesetzt sein wird – und können trotzdem einige Konzepte nicht so erfassen, wie Menschen es tun“, sagte Xu. „Die menschliche Erfahrung ist vielfältiger, als Worte es allein widerspiegeln können.“ Xu betonte jedoch, dass LLMs ständig verbessert werden und es wahrscheinlich ist, dass sie besser in der Lage sein werden, menschliche Konzepte zu erfassen. Die Studie ergab, dass LLMs, die mit Bildern und Text trainiert wurden, besser darin waren, Konzepte, die mit dem Sehen zusammenhängen, darzustellen. In Zukunft könnten LLMs, die mit Sensor- und Robotikdaten aufgewertet werden, aktive Schlussfolgerungen über und Handlungen in der physischen Welt treffen. Co-Autoren der Studie waren Yingying Peng, Ping Li und Minghua Wu von der Hong Kong Polytechnic University, Samuel Nastase von der Princeton University und Martin Chodorow von der City University of New York. Industrie-Insider beurteilen die Ergebnisse der Studie als bedeutend, da sie die Grenzen der aktuellen KI-Modelle aufzeigen. Diese Einsichten könnten dazu beitragen, zukünftige KI-Systeme so zu gestalten, dass sie eine tiefergehende und vielfältigere Darstellung menschlicher Konzepte ermöglichen. Firmen wie OpenAI und Google arbeiten bereits daran, ihre Modelle durch die Integration von sensorischen Daten und Robotik zu verbessern, um die Kluft zwischen menschlicher und künstlicher Intelligenz zu verringern.