Command Palette
Search for a command to run...

초록
대부분의 비디오 추론 모델은 텍스트 기반의 추론 흐름을 생성하지만, 핵심 증거가 언제, 어디서 나타나는지를 명시하지 않는다. 최근 OpenAI-o3와 같은 모델들은 이미지 기반의 증거 중심 추론에 대한 관심을 크게 끌었으나, 이를 비디오에 확장하는 것은 더 큰 도전 과제이다. 왜냐하면 동적인 장면에서 시간적 추적과 공간적 위치 추정을 동시에 수행해야 하기 때문이다. 본 연구에서는 비디오 추론에 명시적인 시공간 증거를 통합하는 비에이전트(Non-agent) 프레임워크인 Open-o3 Video를 제안한다. 또한, 위의 과제를 해결하기 위해 정교하게 구성된 학습 데이터를 수집하고, 효과적인 학습 전략을 설계하였다. 이 모델은 답변과 함께 핵심 타임스탬프, 객체, 그리고 경계 박스(Bounding boxes)를 강조함으로써, 추론이 구체적인 시각적 관측에 기반하도록 한다. 이를 가능하게 하기 위해 먼저, SFT(Supervised Fine-Tuning)를 위한 STGR-CoT-30k와 RL(Reinforcement Learning)을 위한 STGR-RL-36k라는 두 가지 고품질 데이터셋을 철저히 구성하고, 정교하게 설계된 시간적 및 공간적 주석을 제공하였다. 기존 대부분의 데이터셋은 비디오에 대한 시간 구간 또는 이미지에 대한 공간 박스 중 하나만 제공할 뿐, 통합된 시공간 감독 정보와 추론 흐름을 함께 제공하지 못하는 한계가 있다. 이후, 정답 정확도, 시간적 일치도, 공간 정밀도를 동시에 유도하는 다수의 특수 설계된 보상 함수를 활용한 콜드스타트 강화학습 전략을 도입하였다. V-STAR 벤치마크에서 Open-o3 Video는 기준 모델인 Qwen2.5-VL 대비 mAM을 14.4% 향상시키고, mLGM을 24.2% 개선하며 최신 기술 수준(SOTA)의 성능을 달성하였다. 또한 VideoMME, WorldSense, VideoMMMU, TVGBench 등 다양한 비디오 이해 벤치마크에서도 일관된 성능 향상이 관찰되었다. 정확도 외에도 Open-o3 Video가 생성하는 추론 흐름은 테스트 시점 확장(Test-time scaling)에 유용한 신호를 제공하며, 신뢰도 인식 기반 검증을 가능하게 하고 답변의 신뢰성을 향상시킨다.