LLMs entschlüsseln, wie das Gehirn Bilder versteht
Ein neuer Forschungsansatz zeigt, dass große Sprachmodelle (LLMs) die visuelle Wahrnehmung des menschlichen Gehirns bei alltäglichen Szenen beeindruckend genau nachbilden können. Wissenschaftler um Ian Charest von der Universität Montreal, zusammen mit Kollegen von der Universität Minnesota, der Universität Osnabrück und der Freien Universität Berlin, nutzten LLMs, um die semantische Bedeutung natürlicher Szenen in einer Art „sprachbasiertem Fingerabdruck“ zu erfassen. Dabei gaben sie Beschreibungen von Alltagsszenen – wie „eine Gruppe Kinder spielt im Park“ oder „ein städtisches Hintergrundbild mit hohen Gebäuden“ – in die Modelle ein. Die resultierenden Embeddings, also mathematische Darstellungen der Sprachbedeutung, entsprachen erstaunlich genau den Hirnaktivitätsmustern, die bei Probanden in einem MRT-Scanner gemessen wurden, während sie dieselben Szenen betrachteten. Charest betont, dass diese Übereinstimmung bedeutet, dass LLMs nicht nur einzelne Objekte erkennen, sondern auch die tieferen semantischen Zusammenhänge erfassen – etwa, was geschieht, wo es geschieht und wie Elemente in einer Szene miteinander verknüpft sind. Diese Fähigkeit ermöglicht es, aus einem einzelnen Satz die wahrgenommene Szene zu rekonstruieren oder vorherzusagen, wie das Gehirn auf Szenen mit Essen, Orten oder menschlichen Gesichtern reagieren wird. Besonders bemerkenswert ist, dass künstliche neuronale Netze, die auf Bildern trainiert wurden, um diese LLM-Fingerabdrücke vorherzusagen, sogar besser abschnitten als die derzeit fortschrittlichsten KI-Modelle für Bildverarbeitung – und das, obwohl sie mit deutlich weniger Trainingsdaten arbeiteten. Die Entwicklung dieser Netze wurde von Tim Kietzmann und seinem Team an der Universität Osnabrück unterstützt. Der Hauptautor der Studie ist Adrien Doerig von der Freien Universität Berlin. Die Ergebnisse deuten darauf hin, dass das menschliche Gehirn komplexe visuelle Szenen möglicherweise ähnlich verarbeitet wie moderne Sprachmodelle Text interpretieren – nämlich semantisch und kontextbezogen, nicht nur objektorientiert. Die Forschung eröffnet neue Wege für die Entschlüsselung von Gedanken, die Verbesserung von Gehirn-Computer-Schnittstellen und die Entwicklung intelligenterer KI-Systeme, die menschähnlicher sehen. Potenzielle Anwendungen reichen von sichereren selbstfahrenden Autos bis hin zu fortschrittlichen visuellen Prothesen für Menschen mit schweren Sehbehinderungen. Gleichzeitig liefert die Studie tiefere Einblicke in die Funktionsweise des menschlichen Gehirns bei der Verarbeitung visueller Bedeutung. Industrielle Experten sehen in der Arbeit einen Meilenstein für die KI- und Neurowissenschaften. „Dies ist ein klarer Beweis dafür, dass Sprachmodelle nicht nur Sprache verstehen, sondern auch die Grundlagen menschlicher Wahrnehmung abbilden können“, sagt eine Neuroinformatik-Experte von der ETH Zürich. „Die Integration von LLMs in neurokognitive Modelle könnte die nächste Generation der KI-Entwicklung prägen.“ Die beteiligten Institutionen – darunter Mila, das führende Zentrum für KI in Quebec – unterstreichen die Bedeutung der interdisziplinären Zusammenarbeit zwischen KI, Psychologie und Neurowissenschaft.