Command Palette
Search for a command to run...
Von reaktiv zu kognitiv: gehirngestützte räumliche Intelligenz für körperhafte Agenten
Shouwei Ruan Liyuan Wang Caixin Kang Qihui Zhu Songming Liu Xingxing Wei Hang Su

Abstract
Die räumliche Kognition ermöglicht adaptive, zielgerichtete Verhaltensweisen durch die Erstellung interner räumlicher Modelle. Robuste biologische Systeme strukturieren räumliches Wissen in drei miteinander verbundene Formen: Landmarken für auffällige Hinweise, Routenwissen für Bewegungstrajektorien und Übersichtswissen für kartografische Darstellungen. Obwohl in jüngster Zeit Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) visuelle-Sprach-Reasoning bei körperhaften Agenten ermöglicht haben, fehlen diesen Ansätzen strukturierte räumliche Gedächtnisse und sie agieren vielmehr reaktiv, was ihre Generalisierbarkeit und Anpassungsfähigkeit in komplexen realen Umgebungen einschränkt. Hier präsentieren wir Brain-inspirierte räumliche Kognition für Navigation (BSC-Nav), einen einheitlichen Rahmen zur Erstellung und Nutzung strukturierter räumlicher Gedächtnisse bei körperhaften Agenten. BSC-Nav erzeugt aus egozentrischen Trajektorien und kontextuellen Hinweisen kognitiv orientierte, allozentrische Karten und ruft räumliches Wissen dynamisch ab, das semantischen Zielen entspricht. In Kombination mit leistungsfähigen MLLMs erreicht BSC-Nav state-of-the-art Effizienz und Wirksamkeit bei einer Vielzahl von Navigationstasks, zeigt starke Zero-Shot-Generalisierung und ermöglicht vielseitige, körperhafte Verhaltensweisen in der realen physischen Welt – somit bietet es einen skalierbaren und biologisch fundierten Ansatz für allgemeine räumliche Intelligenz.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.