Command Palette
Search for a command to run...

초록
비디오 모델은 일관된 운동 역학을 갖춘 고해상도 비디오 생성에서 놀라운 성공을 거두었다. 언어 모델링에서 텍스트 생성에서 텍스트 기반 추론으로의 발전과 유사하게, 비디오 모델의 발전은 다음과 같은 질문을 제기하게 한다. 비디오 생성을 통해 비디오 모델은 추론이 가능할 수 있는가? 텍스트 코퍼스가 이산적이라는 점과 달리, 비디오는 명시적인 공간 구조와 시간적 연속성을 기반으로 하므로, 공간 추론에 이상적인 기반을 제공한다. 본 연구에서는 비디오를 통한 추론(paradigm)을 탐구하고, 비디오 모델의 추론 능력을 체계적으로 평가할 수 있도록 설계된 종합적 벤치마크인 VR-Bench를 제안한다. 공간 계획과 다단계 추론이 필수적인 미로 해결 과제를 기반으로 하여, VR-Bench는 5종의 미로 유형과 다양한 시각 스타일을 가진 총 7,920개의 절차적 생성 비디오를 포함한다. 실험적 분석을 통해, SFT(Supervised Fine-Tuning)가 비디오 모델의 추론 능력을 효율적으로 유도함을 확인하였다. 비디오 모델은 추론 과정에서 더 뛰어난 공간 인지 능력을 보였으며, 최첨단 VLMs(비디오-언어 모델)를 상회하고 다양한 시나리오, 과제, 복잡도 수준에 걸쳐 우수한 일반화 성능을 보였다. 또한 추론 시에 다양한 샘플링을 적용할 경우, 추론의 신뢰도가 10~20% 향상되는 테스트 시각 스케일링 효과를 발견하였다. 이러한 결과는 비디오를 통한 추론이 공간 추론 과제에 있어 독특한 잠재력과 확장 가능성을 지닌다는 점을 강조한다.