Command Palette
Search for a command to run...

초록
영상 생성 모델의 급속한 발전은 시각적으로 타당한 출력을 생성하는 데서 물리적 타당성과 논리적 일관성을 요구하는 과제 해결으로 초점을 전환하고 있다. 그러나 최근 베오 3의 프레임 체인 추론 같은 획기적인 성과에도 불구하고, 이러한 모델이 대규모 언어 모델(Large Language Models, LLMs)과 유사한 추론 능력을 보일 수 있는지 여부는 여전히 명확하지 않다. 기존의 평가 벤치마크는 주로 시각적 정확도와 시간적 일관성만을 평가하여 고차원 추론 능력을 포착하지 못하고 있다. 이러한 격차를 메우기 위해 우리는 이미지에서 영상으로 생성하는(I2V) 모델의 추론 능력을 평가하기 위해 특별히 설계된 계층적 벤치마크인 TiViBench를 제안한다. TiViBench는 네 가지 차원에서 체계적으로 추론 능력을 평가한다: i) 구조적 추론 및 탐색, ii) 공간적 및 시각적 패턴 추론, iii) 기호적 및 논리적 추론, iv) 행동 계획 및 작업 실행이며, 총 3단계의 난이도로 구성된 24개의 다양한 과제 시나리오를 포함한다. 광범위한 평가를 통해 상용 모델(Sora 2, Veo 3.1 등)이 더 강한 추론 잠재력을 보이며, 오픈소스 모델은 제한된 학습 규모와 데이터 다양성으로 인해 여전히 개발되지 않은 잠재력을 지니고 있음을 확인하였다. 이러한 잠재력을 더욱 극대화하기 위해, 선호도 최적화를 영감으로 삼은 간단하면서도 효과적인 테스트 시점 전략인 VideoTPO를 도입한다. VideoTPO는 생성된 후보에 대해 LLM 기반의 자기 분석을 수행하여 강점과 약점을 식별함으로써, 추가적인 학습, 데이터 또는 보상 모델 없이도 추론 성능을 크게 향상시킨다. TiViBench와 VideoTPO는 영상 생성 모델 내 추론 능력 평가 및 발전을 위한 길을 열어주며, 이 분야에서 미래 연구의 기반을 마련한다.