초록

다양한 분야에서 놀라운 진전을 보였음에도 불구하고, 다중모달 기반 모델은 여전히 공간 지능 측면에서 예상치 못한 한계를 보이고 있다. 본 연구에서는 기존의 다중모달 기반 기술(예: 시각 이해 모델인 Qwen3-VL 및 InternVL3, 통합 이해 및 생성 모델인 Bagel)을 기반으로 한 SenseNova-SI 가족 내에서 공간 지능을 향상시키기 위해 다중모달 기반 모델의 규모 확장을 탐구한다. 우리는 공간 지능의 고성능 및 강건성을 체계적으로 확보하기 위해, 공간 능력에 대한 엄격한 분류 체계 하에 800만 개의 다양한 데이터 샘플을 철저히 수집·정제한 SenseNova-SI-8M을 구축하는 체계적인 접근법을 취한다. SenseNova-SI는 다양한 공간 지능 평가 지표에서 전례 없는 성능을 보이며, VSI-Bench에서 68.7%, MMSI에서 43.3%, MindCube에서 85.6%, ViewSpatial에서 54.6%, SITE에서 50.1%의 성과를 기록하였으며, 다중모달 이해 능력 또한 우수한 수준을 유지한다(예: MMBench-En에서 84.9%). 더욱 중요한 점은, 데이터 규모 증가의 영향을 분석하고, 다양한 데이터를 통한 훈련이 초래하는 잠재적 일반화 능력의 조기 징후를 탐색하며, 과적합 및 언어적 단순화(언어적 편의)의 위험을 분석하고, 공간 사고 체인(Chain-of-Thought) 추론에 대한 초기 연구를 제시하며, 하류 응용 가능성을 검증했다는 점이다. SenseNova-SI는 지속적인 개발이 진행 중인 프로젝트이며, 본 보고서는 지속적으로 업데이트될 예정이다. 새로 훈련된 모든 다중모달 기반 모델은 공개되어 본 분야의 추가 연구를 촉진할 수 있도록 제공된다.

소스 PDF 코드 보기