Command Palette
Search for a command to run...
다중모달 기반 모델을 통한 공간 지능의 스케일링
다중모달 기반 모델을 통한 공간 지능의 스케일링
초록
다양한 분야에서 놀라운 진전을 보였음에도 불구하고, 다중모달 기반 모델은 여전히 공간 지능 측면에서 예상치 못한 한계를 보이고 있다. 본 연구에서는 기존의 다중모달 기반 기술(예: 시각 이해 모델인 Qwen3-VL 및 InternVL3, 통합 이해 및 생성 모델인 Bagel)을 기반으로 한 SenseNova-SI 가족 내에서 공간 지능을 향상시키기 위해 다중모달 기반 모델의 규모 확장을 탐구한다. 우리는 공간 지능의 고성능 및 강건성을 체계적으로 확보하기 위해, 공간 능력에 대한 엄격한 분류 체계 하에 800만 개의 다양한 데이터 샘플을 철저히 수집·정제한 SenseNova-SI-8M을 구축하는 체계적인 접근법을 취한다. SenseNova-SI는 다양한 공간 지능 평가 지표에서 전례 없는 성능을 보이며, VSI-Bench에서 68.7%, MMSI에서 43.3%, MindCube에서 85.6%, ViewSpatial에서 54.6%, SITE에서 50.1%의 성과를 기록하였으며, 다중모달 이해 능력 또한 우수한 수준을 유지한다(예: MMBench-En에서 84.9%). 더욱 중요한 점은, 데이터 규모 증가의 영향을 분석하고, 다양한 데이터를 통한 훈련이 초래하는 잠재적 일반화 능력의 조기 징후를 탐색하며, 과적합 및 언어적 단순화(언어적 편의)의 위험을 분석하고, 공간 사고 체인(Chain-of-Thought) 추론에 대한 초기 연구를 제시하며, 하류 응용 가능성을 검증했다는 점이다. SenseNova-SI는 지속적인 개발이 진행 중인 프로젝트이며, 본 보고서는 지속적으로 업데이트될 예정이다. 새로 훈련된 모든 다중모달 기반 모델은 공개되어 본 분야의 추가 연구를 촉진할 수 있도록 제공된다.