HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 5 Tagen

COOPER: Ein einheitliches Modell für kooperative Wahrnehmung und Schlussfolgerung in räumlicher Intelligenz

COOPER: Ein einheitliches Modell für kooperative Wahrnehmung und Schlussfolgerung in räumlicher Intelligenz

Abstract

Visuelle räumliche Schlussfolgerung ist entscheidend dafür, Multimodale große Sprachmodelle (MLLMs) zu befähigen, Objekteigenschaften und räumliche Beziehungen zu verstehen. Dennoch haben aktuelle Modelle weiterhin Schwierigkeiten bei der 3D-orientierten Schlussfolgerung. Bestehende Ansätze verbessern entweder die Wahrnehmung, indem sie RGB-Eingaben durch zusätzliche Modalitäten wie Tiefeninformationen und Segmentierung ergänzen, oder die Schlussfolgerung, indem sie auf räumlichen VQA-Datensätzen trainiert und mit Verstärkungslernen (Reinforcement Learning) optimiert werden – wobei diese beiden Aspekte isoliert betrachtet werden. In dieser Arbeit untersuchen wir, ob ein einheitliches MLLM eine inhärente Fähigkeit entwickeln kann, die räumliche Wahrnehmung zu verbessern, und durch adaptives, interleave-geordnetes Schlussfolgern eine stärkere räumliche Intelligenz erreicht. Wir stellen COOPER vor, ein einheitliches MLLM, das Tiefeninformationen und Segmentierung als zusätzliche Modalitäten nutzt und in zwei Trainingsphasen entwickelt wird, um die Generierung zusätzlicher Modalitäten sowie adaptives, interleave-geordnetes Schlussfolgern zu erlernen. COOPER erreicht eine durchschnittliche Verbesserung der räumlichen Schlussfolgerung um 6,91 %, ohne die allgemeine Leistungseinheit zu beeinträchtigen. Zudem erzielt sogar eine Variante, die ausschließlich zur Generierung zusätzlicher Modalitäten trainiert wurde, eine Verbesserung um 7,92 % bei der Schätzung von Abständen und Größen – was darauf hindeutet, dass das Erlernen der Generierung zusätzlicher Modalitäten dazu beiträgt, räumliches Wissen zu internalisieren und die räumliche Verständnisfähigkeit zu stärken.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
COOPER: Ein einheitliches Modell für kooperative Wahrnehmung und Schlussfolgerung in räumlicher Intelligenz | Forschungsarbeiten | HyperAI