COOPER: Ein einheitliches Modell für kooperative Wahrnehmung und Schlussfolgerung in räumlicher Intelligenz
COOPER: Ein einheitliches Modell für kooperative Wahrnehmung und Schlussfolgerung in räumlicher Intelligenz

Abstract
Visuelle räumliche Schlussfolgerung ist entscheidend dafür, Multimodale große Sprachmodelle (MLLMs) zu befähigen, Objekteigenschaften und räumliche Beziehungen zu verstehen. Dennoch haben aktuelle Modelle weiterhin Schwierigkeiten bei der 3D-orientierten Schlussfolgerung. Bestehende Ansätze verbessern entweder die Wahrnehmung, indem sie RGB-Eingaben durch zusätzliche Modalitäten wie Tiefeninformationen und Segmentierung ergänzen, oder die Schlussfolgerung, indem sie auf räumlichen VQA-Datensätzen trainiert und mit Verstärkungslernen (Reinforcement Learning) optimiert werden – wobei diese beiden Aspekte isoliert betrachtet werden. In dieser Arbeit untersuchen wir, ob ein einheitliches MLLM eine inhärente Fähigkeit entwickeln kann, die räumliche Wahrnehmung zu verbessern, und durch adaptives, interleave-geordnetes Schlussfolgern eine stärkere räumliche Intelligenz erreicht. Wir stellen COOPER vor, ein einheitliches MLLM, das Tiefeninformationen und Segmentierung als zusätzliche Modalitäten nutzt und in zwei Trainingsphasen entwickelt wird, um die Generierung zusätzlicher Modalitäten sowie adaptives, interleave-geordnetes Schlussfolgern zu erlernen. COOPER erreicht eine durchschnittliche Verbesserung der räumlichen Schlussfolgerung um 6,91 %, ohne die allgemeine Leistungseinheit zu beeinträchtigen. Zudem erzielt sogar eine Variante, die ausschließlich zur Generierung zusätzlicher Modalitäten trainiert wurde, eine Verbesserung um 7,92 % bei der Schätzung von Abständen und Größen – was darauf hindeutet, dass das Erlernen der Generierung zusätzlicher Modalitäten dazu beiträgt, räumliches Wissen zu internalisieren und die räumliche Verständnisfähigkeit zu stärken.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.