Skalierung räumlicher Intelligenz mit multimodalen Grundmodellen

Abstract
Trotz bemerkenswerter Fortschritte weisen multimodale Grundmodelle weiterhin überraschende Defizite in Bezug auf räumliche Intelligenz auf. In dieser Arbeit untersuchen wir die Skalierung multimodaler Grundmodelle, um räumliche Intelligenz innerhalb der SenseNova-SI-Familie zu fördern, die auf etablierten multimodalen Grundlagen basiert, darunter visuelle Verständnismodelle (z. B. Qwen3-VL und InternVL3) sowie integrierte Verständnis- und Generationsmodelle (z. B. Bagel). Wir verfolgen einen systematischen Ansatz zur Entwicklung hochleistungsfähiger und robuster räumlicher Intelligenz durch die sorgfältige Sammlung von SenseNova-SI-8M: acht Millionen vielfältige Datensätze, die einer strengen Taxonomie räumlicher Fähigkeiten unterliegen. SenseNova-SI erreicht eine bisher ungekannte Leistung auf einer breiten Palette von Benchmarks für räumliche Intelligenz: 68,7 % auf VSI-Bench, 43,3 % auf MMSI, 85,6 % auf MindCube, 54,6 % auf ViewSpatial und 50,1 % auf SITE, während gleichzeitig eine starke allgemeine multimodale Verständnisfähigkeit erhalten bleibt (z. B. 84,9 % auf MMBench-En). Vor allem analysieren wir den Einfluss der Datenskalierung, diskutieren erste Anzeichen emergenter Generalisierungsfähigkeiten, die durch die Ausbildung mit vielfältigen Daten ermöglicht werden, untersuchen das Risiko von Overfitting und Sprachverkürzungen, präsentieren eine vorläufige Studie zur räumlichen Chain-of-Thought-Reasoning und validieren das Potenzial für nachgeschaltete Anwendungen. SenseNova-SI ist ein laufendes Projekt, und dieser Bericht wird kontinuierlich aktualisiert. Alle neu trainierten multimodalen Grundmodelle werden öffentlich freigegeben, um weitere Forschung in dieser Richtung zu fördern.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.