Command Palette
Search for a command to run...
Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

초록
강화 학습 미세조정(Reinforcement Fine-Tuning, RFT)은 감독 미세조정(Supervised Fine-Tuning, SFT)과 강화학습(Reinforcement Learning, RL)으로 구성된 이단계 프레임워크로서 대규모 언어모델(LLM)의 추론 능력을 향상시키는 데 있어 유망한 성과를 보여왔다. 그러나 이 기법을 대규모 영상-언어 모델(Large Video Language Models, LVLMs)에 확장하는 것은 여전히 도전 과제이다. 본 연구에서는 인지와 추론을 별개의 프로세스로 모델링함으로써 영상 추론 능력을 향상시키는 새로운 프로세스 인식형 영상 RFT 프레임워크인 VideoP2R을 제안한다. SFT 단계에서는 인지와 추론을 위한 고품질의 프로세스 인식형 체인오브사고(Chain-of-Thought, CoT) 데이터셋인 VideoP2R-CoT-162K를 생성하기 위해 3단계 파이프라인을 개발하였다. RL 단계에서는 인지와 추론에 대해 별도의 보상을 제공하는 새로운 프로세스 인식형 그룹 상대 정책 최적화(Proces-aware Group Relative Policy Optimization, PA-GRPO) 알고리즘을 제안하였다. 광범위한 실험 결과, VideoP2R는 7개의 영상 추론 및 이해 벤치마크 중 6개에서 최신 기준(SotA, State-of-the-Art) 성능을 달성하였다. 제거 실험(Ablation studies)을 통해 본 연구의 프로세스 인식형 모델링 및 PA-GRPO의 효과가 입증되었으며, 모델의 인지 출력이 후속 추론 작업에 있어 정보적으로 충분함을 보였다.