Command Palette
Search for a command to run...

초록
진정한 다모달 지능의 발전을 위해서는 반응형이고 과제 중심인 시스템, 그리고 무차별적인 긴 컨텍스트 처리에 대한 전환을 필요로 한다. 우리는 이를 더 넓은 범주인 '초감지(supersensing)'의 패러다임으로 이끌어야 한다고 주장한다. 공간적 초감지(spatial supersensing)는 언어적 이해를 넘어서는 네 단계로 구성된다. 첫째, 의미적 인지(보이는 것을 이름 붙이는 것), 둘째, 스트리밍 이벤트 인지(지속적인 경험 간의 기억을 유지하는 것), 셋째, 암묵적 3D 공간 인지(픽셀 뒤에 있는 세계를 추론하는 것), 넷째, 예측 기반 세계 모델링(정보를 필터링하고 정리하는 내부 모델을 생성하는 것)이다. 현재의 벤치마크는 주로 초기 단계만 평가하고 있어 공간 인지의 범위가 좁으며, 진정한 세계 모델링을 요구하는 시나리오로 모델을 시험하는 경우는 거의 없다. 공간적 초감지의 발전을 촉진하기 위해, 우리는 두 가지 구성 요소로 이루어진 VSI-SUPER라는 벤치마크를 제안한다. VSR(장기 시각적 공간적 회상)와 VSC(지속적 시각적 공간적 카운팅)이다. 이 과제들은 임의로 긴 비디오 입력을 요구하지만, 무차별적인 컨텍스트 확장에는 강건하다. 이를 통해 VSI-590K 데이터셋을 수집하고 Cambrian-S 모델을 학습함으로써 데이터 스케일링 한계를 검증하였다. 결과적으로 VSI-Bench에서 절대 성능이 +30% 향상되었으며, 일반적 능력은 유지되었다. 그러나 VSI-SUPER에서의 성능은 여전히 제한적이며, 규모만으로는 공간적 초감지를 달성하기 어렵다는 점을 시사한다. 이를 해결하기 위해 우리는 예측 감지(predictive sensing)를 새로운 전략으로 제안하며, 자기지도 학습 기반의 다음 잠재 프레임 예측기(Next-latent-frame predictor)를 활용한 개념 증명을 제시한다. 이 예측기는 예측 오차(놀라움, surprise)를 활용하여 기억 형성과 이벤트 분할을 유도한다. VSI-SUPER에서 이 접근법은 선도적인 사내 모델보다 크게 우수한 성능을 보였으며, 공간적 초감지는 단순히 '보는 것'을 넘어서 경험을 예측하고 선택하며 조직하는 능력을 갖춘 모델이 필요하다는 점을 입증한다.