HyperAI
Back to Headlines

Studie: Multimodelle LLMs und menschliches Gehirn bilden Objektrepräsentationen ähnlich

vor einem Tag

Eine Studie findet heraus, dass multimodale Großsprachmodelle (LLMs) und das menschliche Gehirn Objektrepräsentationen auf ähnliche Weise erstellen. Dies könnte interessante Implikationen für Forschungsbereiche wie Psychologie, Neurowissenschaft und Informatik haben, insbesondere indem es Aufschluss gibt über die Interpretation sensorischer Informationen durch Menschen und die Ausführung verschiedener realweltlicher Aufgaben. Die Erkenntnisse könnten zudem zur Entwicklung von künstlicher Intelligenz (KI) beitragen, die biologische und mentale Prozesse nahezu perfekt nachbildet. Multimodale LLMs, wie zum Beispiel die neuesten Modelle hinter der beliebten Konversationsplattform ChatGPT, sind hoch effektive computergestützte Techniken zur Analyse und Generierung von Texten in verschiedenen menschlichen Sprachen, Bildern und sogar kurzen Videos. Diese Modelle erzeugen oft so überzeugende Inhalte, dass sie als menschlich erschaffen gelten könnten, was sie zu interessanten experimentellen Werkzeugen für die Untersuchung der Grundlagen von Objektrepräsentationen macht. Wissenschaftler der Chinesischen Akademie der Wissenschaften haben kürzlich eine Studie durchgeführt, um zu verstehen, wie multimodale LLMs Objekte darstellen und ob diese Darstellungen denen des menschlichen Gehirns ähneln. Ihre Ergebnisse wurden in der Zeitschrift Nature Machine Intelligence veröffentlicht. "Das Verständnis, wie Menschen natürliche Objekte wie Steine, Pflanzen, Tiere usw. kategorisieren, bietet wichtige Einblicke in Wahrnehmung und Kognition," schreiben Changde Du, Kaicheng Fu und ihre Kollegen in ihrem Paper. "Mit der Entwicklung von Großsprachmodellen (LLMs) stellt sich die Frage, ob diese Modelle aus linguistischen und multimodalen Daten menschenähnliche Objektrepräsentationen entwickeln können. Wir kombinierten Verhaltens- und Neuroimaging-Analysen, um den Zusammenhang zwischen Objektkonzeptdarstellungen in LLMs und menschlicher Kognition zu erforschen." Im Rahmen ihrer Studie untersuchten die Forscher speziell die Objektrepräsentationen, die im LLM ChatGPT-3.5 von OpenAI und im multimodalen LLM GeminiPro Vision 1.0 von Google DeepMind entstehen. Sie ließen diese Modelle einfache Aufgaben namens Triplettenurteile durchführen. Bei jedem dieser Aufgaben wurden den Modellen drei Objekte vorgelegt, und sie sollten die beiden auswählen, die sich am stärksten ähneln. "Wir sammelten 4,7 Millionen Triplettenurteile von LLMs und multimodalen LLMs, um niedrigdimensionale Einbettungen zu berechnen, die die Ähnlichkeitsstruktur von 1.854 natürlichen Objekten erfassen," schreiben Du, Fu und ihre Kollegen. "Die resultierenden 66-dimensionalen Einbettungen waren stabil, vorhersagbar und zeigten semantisches Clustering, ähnlich dem menschlichen Mentalmodellen. Bemerkenswerterweise waren die Dimensionen, die diesen Einbettungen zugrunde liegen, interpretierbar, was darauf hindeutet, dass LLMs und multimodale LLMs menschenähnliche konzeptuelle Objektrepräsentationen entwickeln." Die Forscher berechneten mit Hilfe der Triplettenurteile niedrigdimensionale Einbettungen. Diese mathematischen Darstellungen beschreiben die Ähnlichkeit zwischen Objekten in verschiedenen Dimensionen und platzieren ähnliche Objekte näher zueinander in einem abstrakten Raum. Die Einbettungen gruppierten die Objekte zu sinnvollen Kategorien, wie "Tiere," "Pflanzen" und so weiter, was darauf hindeutet, dass LLMs und multimodale LLMs Objekte ähnlich organisieren, wie sie im menschlichen Geist dargestellt werden. "Detaillierte Analysen zeigten eine starke Übereinstimmung zwischen den Modell-Einbettungen und den neuronalen Aktivitätsmustern in Gehirnregionen wie dem Extra-Striate Body Area, dem Para-Hippocampal Place Area, dem Retro-Splenial Cortex und dem Fusiform Face Area," schreiben die Autoren. "Dies liefert überzeugende Beweise dafür, dass die Objektrepräsentationen in LLMs, obwohl nicht identisch mit menschlichen, grundlegende Ähnlichkeiten aufweisen, die wesentliche Aspekte menschlichen konzeptuellen Wissens widerspiegeln." Zusammenfassend legen die Ergebnisse von Du, Fu und ihren Kollegen nahe, dass menschenähnliche natürliche Objektrepräsentationen in LLMs und multimodalen LLMs nach der Ausbildung an großen Datenmengen inherent entstehen. Diese Studie könnte zukünftige Forschungsteams inspirieren, die Darstellung von Objekten in LLMs zu erforschen, und könnte zum weiteren Fortschritt von kugelkopfbasierten KI-Systemen beitragen. Die Studie wurde von Experten der Chinesischen Akademie der Wissenschaften durchgeführt und in der renommierten Zeitschrift Nature Machine Intelligence veröffentlicht. Sie hebt die Fähigkeit moderner KI-Modelle hervor, komplexe menschliche kognitive Prozesse zu simulieren, was für die Zukunft der KI-Forschung bedeutungsvoll sein könnte. Die Arbeit dieser Forscher zeigt, dass die Entwicklung von KI-Modellen, die menschliches Denken nachbilden, ein vielversprechender Weg ist, um unser Verständnis von Wahrnehmung und Kognition zu vertiefen.

Related Links