Command Palette

Search for a command to run...

6일 전

VIDEOP2R: 인지에서 추론에 이르는 비디오 이해

Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

VIDEOP2R: 인지에서 추론에 이르는 비디오 이해

초록

강화 학습 미세조정(Reinforcement Fine-Tuning, RFT)은 감독 미세조정(Supervised Fine-Tuning, SFT)과 강화학습(Reinforcement Learning, RL)으로 구성된 이단계 프레임워크로서 대규모 언어모델(LLM)의 추론 능력을 향상시키는 데 있어 유망한 성과를 보여왔다. 그러나 이 기법을 대규모 영상-언어 모델(Large Video Language Models, LVLMs)에 확장하는 것은 여전히 도전 과제이다. 본 연구에서는 인지와 추론을 별개의 프로세스로 모델링함으로써 영상 추론 능력을 향상시키는 새로운 프로세스 인식형 영상 RFT 프레임워크인 VideoP2R을 제안한다. SFT 단계에서는 인지와 추론을 위한 고품질의 프로세스 인식형 체인오브사고(Chain-of-Thought, CoT) 데이터셋인 VideoP2R-CoT-162K를 생성하기 위해 3단계 파이프라인을 개발하였다. RL 단계에서는 인지와 추론에 대해 별도의 보상을 제공하는 새로운 프로세스 인식형 그룹 상대 정책 최적화(Proces-aware Group Relative Policy Optimization, PA-GRPO) 알고리즘을 제안하였다. 광범위한 실험 결과, VideoP2R는 7개의 영상 추론 및 이해 벤치마크 중 6개에서 최신 기준(SotA, State-of-the-Art) 성능을 달성하였다. 제거 실험(Ablation studies)을 통해 본 연구의 프로세스 인식형 모델링 및 PA-GRPO의 효과가 입증되었으며, 모델의 인지 출력이 후속 추론 작업에 있어 정보적으로 충분함을 보였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
VIDEOP2R: 인지에서 추론에 이르는 비디오 이해 | 연구 논문 | HyperAI초신경