Command Palette

Search for a command to run...

5일 전

비디오-씽커: 강화학습을 통한 "비디오로 생각하기" 촉발

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

비디오-씽커: 강화학습을 통한 "비디오로 생각하기" 촉발

초록

최근 이미지 추론 기법, 특히 ‘이미지를 통해 사고하기(Thinking with Images)’에 대한 발전은 다모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)에서 놀라운 성과를 보여주었다. 그러나 이러한 동적 추론 패러다임은 아직 영상 추론 작업까지 확장되지 못했다. 본 논문에서는 영상 추론을 위해 MLLMs가 스스로 영상의 내재적 ‘기초화(Grounding)’ 및 ‘캡셔닝(Captioning)’ 능력을 활용하여 추론 과정 전반에 걸쳐 추론 단서를 생성할 수 있도록 하는 Video-Thinker를 제안한다. 이 능력을 유도하기 위해, 사고 흐름(Chain-of-Thought) 추론 시퀀스 내에서 자율적인 도구 사용을 특징으로 하는 Video-Thinker-10K라는 정교하게 구성된 데이터셋을 구축하였다. 본 연구의 학습 전략은 먼저 추론 형식을 학습하기 위해 감독 미세조정(Supervised Fine-Tuning, SFT)을 수행한 후, 추론 능력을 강화하기 위해 그룹 상대적 정책 최적화(Group Relative Policy Optimization, GRPO)를 적용한다. 이러한 접근을 통해 Video-Thinker는 MLLMs가 영상 추론을 위해 자율적으로 기초화 및 캡셔닝 작업을 수행할 수 있도록 하며, 외부 도구를 별도로 구성하거나 호출할 필요 없이 추론을 수행할 수 있다. 광범위한 실험 결과를 통해 Video-Thinker는 도메인 내 작업과 도메인 외부에서 매우 도전적인 영상 추론 벤치마크, 즉 Video-Holmes, CG-Bench-Reasoning, VRBench에서 모두 상당한 성능 향상을 달성함을 입증하였다. 특히 Video-Thinker-7B는 기존의 베이스라인 모델인 Video-R1를 상회하며, 7B 규모의 MLLMs 중 최고 성능을 기록하며 최신 기준을 수립하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
비디오-씽커: 강화학습을 통한 "비디오로 생각하기" 촉발 | 연구 논문 | HyperAI초신경