HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Tagen

Skalierung räumlicher Intelligenz mit multimodalen Grundmodellen

Skalierung räumlicher Intelligenz mit multimodalen Grundmodellen

Abstract

Trotz bemerkenswerter Fortschritte weisen multimodale Grundmodelle weiterhin überraschende Defizite in Bezug auf räumliche Intelligenz auf. In dieser Arbeit untersuchen wir die Skalierung multimodaler Grundmodelle, um räumliche Intelligenz innerhalb der SenseNova-SI-Familie zu fördern, die auf etablierten multimodalen Grundlagen basiert, darunter visuelle Verständnismodelle (z. B. Qwen3-VL und InternVL3) sowie integrierte Verständnis- und Generationsmodelle (z. B. Bagel). Wir verfolgen einen systematischen Ansatz zur Entwicklung hochleistungsfähiger und robuster räumlicher Intelligenz durch die sorgfältige Sammlung von SenseNova-SI-8M: acht Millionen vielfältige Datensätze, die einer strengen Taxonomie räumlicher Fähigkeiten unterliegen. SenseNova-SI erreicht eine bisher ungekannte Leistung auf einer breiten Palette von Benchmarks für räumliche Intelligenz: 68,7 % auf VSI-Bench, 43,3 % auf MMSI, 85,6 % auf MindCube, 54,6 % auf ViewSpatial und 50,1 % auf SITE, während gleichzeitig eine starke allgemeine multimodale Verständnisfähigkeit erhalten bleibt (z. B. 84,9 % auf MMBench-En). Vor allem analysieren wir den Einfluss der Datenskalierung, diskutieren erste Anzeichen emergenter Generalisierungsfähigkeiten, die durch die Ausbildung mit vielfältigen Daten ermöglicht werden, untersuchen das Risiko von Overfitting und Sprachverkürzungen, präsentieren eine vorläufige Studie zur räumlichen Chain-of-Thought-Reasoning und validieren das Potenzial für nachgeschaltete Anwendungen. SenseNova-SI ist ein laufendes Projekt, und dieser Bericht wird kontinuierlich aktualisiert. Alle neu trainierten multimodalen Grundmodelle werden öffentlich freigegeben, um weitere Forschung in dieser Richtung zu fördern.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Skalierung räumlicher Intelligenz mit multimodalen Grundmodellen | Forschungsarbeiten | HyperAI