Command Palette

Search for a command to run...

17일 전

비디오로 사고하기: 다중모달 추론 패러다임으로서의 비디오 생성

비디오로 사고하기: 다중모달 추론 패러다임으로서의 비디오 생성

초록

"텍스트로 사고하기"와 "이미지로 사고하기"라는 패러다임은 대규모 언어 모델(Large Language Models, LLMs)과 시각-언어 모델(Vision Language Models, VLMs)의 추론 능력을 크게 향상시켰다. 그러나 이러한 패러다임은 내재적인 한계를 지닌다. 첫째, 이미지는 단일 순간만을 포착할 뿐 동적 과정이나 지속적인 변화를 표현하지 못한다. 둘째, 텍스트와 시각 정보를 별개의 모달리티로 분리함으로써 통합적인 다중모달 이해 및 생성을 방해한다. 이러한 한계를 극복하기 위해, 우리는 시각적 추론과 텍스트 기반 추론을 통합된 시공간 틀 안에서 연결하는 새로운 패러다임인 "비디오로 사고하기(Thinking with Video)"를 제안한다. 이 패러다임은 Sora-2와 같은 비디오 생성 모델을 활용함으로써, 시각과 텍스트 간의 추론을 통합적으로 수행할 수 있도록 한다. 본 연구를 뒷받침하기 위해, 우리는 '비디오 사고 벤치마크(Video Thinking Benchmark, VideoThinkBench)'를 개발하였다. VideoThinkBench는 두 가지 주요 작업 범주로 구성된다: (1) 시각 중심 작업(예: 아이버링 퍼즐, Eyeballing Puzzles), (2) 텍스트 중심 작업(예: GSM8K의 하위 집합, MMMU). 평가 결과, Sora-2는 강력한 추론 능력을 보였으며, 시각 중심 작업에서는 최신 기술(SOTA) 수준의 VLM들과 일반적으로 비견되며, 일부 작업(예: 아이버링 게임)에서는 오히려 VLM들을 상회하는 성능을 기록했다. 텍스트 중심 작업에서는 MATH에서 92%의 정확도, MMMU에서는 75.53%의 정확도를 달성하였다. 또한, 이러한 능력의 원인을 체계적으로 분석하였다. 특히, 자기 일관성(self-consistency)과 문맥 내 학습(in-context learning)이 Sora-2의 성능 향상에 기여함을 발견하였다. 결론적으로, 본 연구는 비디오 생성 모델이 통합된 다중모달 이해 및 생성 모델로서의 잠재력을 입증하였으며, "비디오로 사고하기"가 통합된 다중모달 추론 패러다임으로서의 가능성을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
비디오로 사고하기: 다중모달 추론 패러다임으로서의 비디오 생성 | 연구 논문 | HyperAI초신경