HyperAI

Trotz bemerkenswerter Fortschritte weisen multimodale Grundmodelle weiterhin überraschende Defizite in Bezug auf räumliche Intelligenz auf. In dieser Arbeit untersuchen wir die Skalierung multimodaler Grundmodelle, um räumliche Intelligenz innerhalb der SenseNova-SI-Familie zu fördern, die auf etablierten multimodalen Grundlagen basiert, darunter visuelle Verständnismodelle (z. B. Qwen3-VL und InternVL3) sowie integrierte Verständnis- und Generationsmodelle (z. B. Bagel). Wir verfolgen einen systematischen Ansatz zur Entwicklung hochleistungsfähiger und robuster räumlicher Intelligenz durch die sorgfältige Sammlung von SenseNova-SI-8M: acht Millionen vielfältige Datensätze, die einer strengen Taxonomie räumlicher Fähigkeiten unterliegen. SenseNova-SI erreicht eine bisher ungekannte Leistung auf einer breiten Palette von Benchmarks für räumliche Intelligenz: 68,7 % auf VSI-Bench, 43,3 % auf MMSI, 85,6 % auf MindCube, 54,6 % auf ViewSpatial und 50,1 % auf SITE, während gleichzeitig eine starke allgemeine multimodale Verständnisfähigkeit erhalten bleibt (z. B. 84,9 % auf MMBench-En). Vor allem analysieren wir den Einfluss der Datenskalierung, diskutieren erste Anzeichen emergenter Generalisierungsfähigkeiten, die durch die Ausbildung mit vielfältigen Daten ermöglicht werden, untersuchen das Risiko von Overfitting und Sprachverkürzungen, präsentieren eine vorläufige Studie zur räumlichen Chain-of-Thought-Reasoning und validieren das Potenzial für nachgeschaltete Anwendungen. SenseNova-SI ist ein laufendes Projekt, und dieser Bericht wird kontinuierlich aktualisiert. Alle neu trainierten multimodalen Grundmodelle werden öffentlich freigegeben, um weitere Forschung in dieser Richtung zu fördern.

Skalierung räumlicher Intelligenz mit multimodalen Grundmodellen

Zhongang Cai Ruisi Wang Chenyang Gu Fanyi Pu Junxiang Xu Yubo Wang Wanqi Yin Zhitao Yang Chen Wei Qingping Sun

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Skalierung räumlicher Intelligenz mit multimodalen Grundmodellen

Zhongang Cai Ruisi Wang Chenyang Gu Fanyi Pu Junxiang Xu Yubo Wang Wanqi Yin Zhitao Yang Chen Wei Qingping Sun19 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Zhongang Cai Ruisi Wang Chenyang Gu Fanyi Pu Junxiang Xu Yubo Wang Wanqi Yin Zhitao Yang Chen Wei Qingping Sun