MIT-Forscher entwickeln KI mit räumlichem Langzeitgedächtnis
Forschende des Massachusetts Institute of Technology (MIT) haben ein neuartiges Speicherkonzept für autonome Systeme entwickelt, das räumlich-zeitliches Erinnerungsvermögen in Echtzeit ermöglicht. Das Framework trägt den Namen DAAAM (Describe Anything, Anywhere, Anytime, at Any Moment) und wurde kürzlich auf der Conference on Computer Vision and Pattern Recognition (CVPR) vorgestellt. Die Studie wurde vom MIT-Lehrstuhl für Luft- und Raumfahrt unter Leitung von Luca Carlone gemeinsam mit Nicolas Gorlo und Lukas Schmid erarbeitet. Ziel des Vorhabens ist es, Robotern die Fähigkeit zu geben, komplexe Umgebungen zu durchdringen, langfristige Zusammenhänge zu speichern und natürliche Sprachanfragen präzise zu beantworten. Bisherige Ansätze standen vor dem Dilemma, dass computervisionbasierte Modelle zwar detaillierte Objekterkennungen lieferten, aber meist isoliert arbeiteten, während robotische Kartierungssysteme zwar dreidimensionale Abbildungen erstellten, jedoch oft auf semantische Beschreibungen verzichteten. DAAAM überbrückt diese Lücke, indem es fortlaufend Sensordaten mit reichhaltigen Beschreibungen kombiniert. Während eines Roboters eine Umgebung erkundet, werden erkannte Objekte mit mehreren Schlüsselbildern annotiert und in eine räumliche 3D-Struktur eingebettet. Durch eine optimierte Frame-Auswahl und räumliche Clusterbildung können hunderte Objekte parallel erfasst werden, was die Berechnungszeit um den Faktor zehn reduziert und Echtzeitbetrieb in großflächigen Szenarien erlaubt. Die Wissensabfrage erfolgt anschließend über ein Large Language Model, das verschiedene semantische und geometrische Suchwerkzeuge aufruft. Dies minimiert Halluzinationen und ermöglicht präzise Antworten auf komplexe Fragen wie „Wo befindet sich das rote Fahrrad mit Reifenschaden?“ oder „Welche Skulptur stand links neben dem Stata Center?“. In Tests übertraf DAAAM etablierte Methoden um 21 bis 53 Prozent in der Trefferquote. Gleichzeitig bleibt die Latenz für mobile Plattformen praktikabel. Die Entwickler betonen, dass solche Systeme die Grundlage für nahtlose Mensch-Roboter-Kollaboration bilden. Statt starrer Programmierung können Mitarbeitende in Logistik oder Fertigung Assistenten direkt über natürliche Sprache anweisen, Objekte wiederzufinden oder Aufgaben zu planen. Darüber hinaus sieht das Forschungsteam Anwendungsmöglichkeiten im Bereich Augmented Reality, etwa zur Unterstützung von Wartungstechnikerinnen bei der Fehlerdiagnose oder zur Navigation in großen Infrastrukturkomplexen. Die Forschung wird unter anderem vom U.S. Army Research Laboratory und dem Office of Naval Research finanziert. Künftig sollen das Framework um die Erfassung signifikanter Umgebungsereignisse erweitert und Antwortunsicherheiten quantitativ ausgewiesen werden. Langfristiges Ziel ist die Entwicklung eines generalistischen KI-Agenten, der nicht nur Orte, sondern auch Abläufe und Zustände in Echtzeit nachvollziehen und autonom umsetzen kann.
