HyperAIHyperAI

Command Palette

Search for a command to run...

다중모달 기반 모델을 통한 공간 지능의 스케일링

초록

다양한 분야에서 놀라운 진전을 보였음에도 불구하고, 다중모달 기반 모델은 여전히 공간 지능 측면에서 예상치 못한 한계를 보이고 있다. 본 연구에서는 기존의 다중모달 기반 기술(예: 시각 이해 모델인 Qwen3-VL 및 InternVL3, 통합 이해 및 생성 모델인 Bagel)을 기반으로 한 SenseNova-SI 가족 내에서 공간 지능을 향상시키기 위해 다중모달 기반 모델의 규모 확장을 탐구한다. 우리는 공간 지능의 고성능 및 강건성을 체계적으로 확보하기 위해, 공간 능력에 대한 엄격한 분류 체계 하에 800만 개의 다양한 데이터 샘플을 철저히 수집·정제한 SenseNova-SI-8M을 구축하는 체계적인 접근법을 취한다. SenseNova-SI는 다양한 공간 지능 평가 지표에서 전례 없는 성능을 보이며, VSI-Bench에서 68.7%, MMSI에서 43.3%, MindCube에서 85.6%, ViewSpatial에서 54.6%, SITE에서 50.1%의 성과를 기록하였으며, 다중모달 이해 능력 또한 우수한 수준을 유지한다(예: MMBench-En에서 84.9%). 더욱 중요한 점은, 데이터 규모 증가의 영향을 분석하고, 다양한 데이터를 통한 훈련이 초래하는 잠재적 일반화 능력의 조기 징후를 탐색하며, 과적합 및 언어적 단순화(언어적 편의)의 위험을 분석하고, 공간 사고 체인(Chain-of-Thought) 추론에 대한 초기 연구를 제시하며, 하류 응용 가능성을 검증했다는 점이다. SenseNova-SI는 지속적인 개발이 진행 중인 프로젝트이며, 본 보고서는 지속적으로 업데이트될 예정이다. 새로 훈련된 모든 다중모달 기반 모델은 공개되어 본 분야의 추가 연구를 촉진할 수 있도록 제공된다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
다중모달 기반 모델을 통한 공간 지능의 스케일링 | 문서 | HyperAI초신경