vor 2 Monaten

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin

Zusammenfassung

Visuelle räumliche Schlussfolgerung ist entscheidend dafür, Multimodale große Sprachmodelle (MLLMs) zu befähigen, Objekteigenschaften und räumliche Beziehungen zu verstehen. Dennoch haben aktuelle Modelle weiterhin Schwierigkeiten bei der 3D-orientierten Schlussfolgerung. Bestehende Ansätze verbessern entweder die Wahrnehmung, indem sie RGB-Eingaben durch zusätzliche Modalitäten wie Tiefeninformationen und Segmentierung ergänzen, oder die Schlussfolgerung, indem sie auf räumlichen VQA-Datensätzen trainiert und mit Verstärkungslernen (Reinforcement Learning) optimiert werden – wobei diese beiden Aspekte isoliert betrachtet werden. In dieser Arbeit untersuchen wir, ob ein einheitliches MLLM eine inhärente Fähigkeit entwickeln kann, die räumliche Wahrnehmung zu verbessern, und durch adaptives, interleave-geordnetes Schlussfolgern eine stärkere räumliche Intelligenz erreicht. Wir stellen COOPER vor, ein einheitliches MLLM, das Tiefeninformationen und Segmentierung als zusätzliche Modalitäten nutzt und in zwei Trainingsphasen entwickelt wird, um die Generierung zusätzlicher Modalitäten sowie adaptives, interleave-geordnetes Schlussfolgern zu erlernen. COOPER erreicht eine durchschnittliche Verbesserung der räumlichen Schlussfolgerung um 6,91 %, ohne die allgemeine Leistungseinheit zu beeinträchtigen. Zudem erzielt sogar eine Variante, die ausschließlich zur Generierung zusätzlicher Modalitäten trainiert wurde, eine Verbesserung um 7,92 % bei der Schätzung von Abständen und Größen – was darauf hindeutet, dass das Erlernen der Generierung zusätzlicher Modalitäten dazu beiträgt, räumliches Wissen zu internalisieren und die räumliche Verständnisfähigkeit zu stärken.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

COOPER: Ein einheitliches Modell für kooperative Wahrnehmung und Schlussfolgerung in räumlicher Intelligenz

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

COOPER: Ein einheitliches Modell für kooperative Wahrnehmung und Schlussfolgerung in räumlicher Intelligenz

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

COOPER: Ein einheitliches Modell für kooperative Wahrnehmung und Schlussfolgerung in räumlicher Intelligenz

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin