Command Palette

Search for a command to run...

3일 전

다중모달 기반 모델을 통한 공간 지능의 스케일링

다중모달 기반 모델을 통한 공간 지능의 스케일링

초록

다양한 분야에서 놀라운 진전을 보였음에도 불구하고, 다중모달 기반 모델은 여전히 공간 지능 측면에서 예상치 못한 한계를 보이고 있다. 본 연구에서는 기존의 다중모달 기반 기술(예: 시각 이해 모델인 Qwen3-VL 및 InternVL3, 통합 이해 및 생성 모델인 Bagel)을 기반으로 한 SenseNova-SI 가족 내에서 공간 지능을 향상시키기 위해 다중모달 기반 모델의 규모 확장을 탐구한다. 우리는 공간 지능의 고성능 및 강건성을 체계적으로 확보하기 위해, 공간 능력에 대한 엄격한 분류 체계 하에 800만 개의 다양한 데이터 샘플을 철저히 수집·정제한 SenseNova-SI-8M을 구축하는 체계적인 접근법을 취한다. SenseNova-SI는 다양한 공간 지능 평가 지표에서 전례 없는 성능을 보이며, VSI-Bench에서 68.7%, MMSI에서 43.3%, MindCube에서 85.6%, ViewSpatial에서 54.6%, SITE에서 50.1%의 성과를 기록하였으며, 다중모달 이해 능력 또한 우수한 수준을 유지한다(예: MMBench-En에서 84.9%). 더욱 중요한 점은, 데이터 규모 증가의 영향을 분석하고, 다양한 데이터를 통한 훈련이 초래하는 잠재적 일반화 능력의 조기 징후를 탐색하며, 과적합 및 언어적 단순화(언어적 편의)의 위험을 분석하고, 공간 사고 체인(Chain-of-Thought) 추론에 대한 초기 연구를 제시하며, 하류 응용 가능성을 검증했다는 점이다. SenseNova-SI는 지속적인 개발이 진행 중인 프로젝트이며, 본 보고서는 지속적으로 업데이트될 예정이다. 새로 훈련된 모든 다중모달 기반 모델은 공개되어 본 분야의 추가 연구를 촉진할 수 있도록 제공된다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
다중모달 기반 모델을 통한 공간 지능의 스케일링 | 연구 논문 | HyperAI초신경