한 달 전

장기 비디오에 RL 확장

Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
장기 비디오에 RL 확장
초록

우리는 비전-언어 모델(VLMs)에서 긴 영상의 추론을 확장하기 위해 강화 학습을 활용한 전체 스택 프레임워크를 소개합니다. 이 프레임워크는 긴 영상 추론의 독특한 도전 과제를 해결하기 위해 세 가지 중요한 구성 요소를 통합합니다: (1) 스포츠, 게임, 블로그 등 다양한 분야에서 고품질의 추론 주석이 포함된 52,000개의 긴 영상 QA 쌍으로 구성된 대규모 데이터셋인 LongVideo-Reason; (2) 사고 과정 지도 미세 조정(Chain-of-Thought Supervised Fine-Tuning, CoT-SFT)과 강화 학습(Reinforcement Learning, RL)을 확장하는 두 단계 훈련 파이프라인; 그리고 (3) 캐시된 영상 임베딩을 사용하여 효율적인 롤아웃과 프리필링을 수행하는 시퀀스 병렬성과 vLLM 기반 엔진을 결합한 긴 영상 RL 훈련 인프라스트럭처인 다중 모달 강화 시퀀스 병렬성(Multi-modal Reinforcement Sequence Parallelism, MR-SP).실험 결과, LongVILA-R1-7B는 VideoMME와 같은 긴 영상 QA 벤치마크에서 우수한 성능을 보였습니다. 또한 LongVILA-R1-7B는 Video-R1-7B보다 우수하며, 시간적 추론, 목표 및 목적 추론, 공간적 추론, 플롯 추론 등에서 Gemini-1.5-Pro와 맞먹는 성능을 보였습니다. 특히 우리의 MR-SP 시스템은 긴 영상 RL 훈련에서 최대 2.1배의 속도 향상을 달성했습니다. LongVILA-R1은 입력 영상 프레임 수가 증가함에 따라 일관된 성능 개선을 보입니다. LongVILA-R1은 VLMs에서의 긴 영상 추론에 대한 확실한 발걸음을 내딛고 있습니다.또한, 우리는 다양한 모달리티(영상, 텍스트, 오디오), 다양한 모델(VILA 및 Qwen 시리즈), 심지어 이미지 및 영상 생성 모델에서도 RL 훈련을 지원하는 공개용 훈련 시스템을 제공합니다. 단일 A100 노드(8개 GPU)에서는 1시간 길이의 영상(예: 3,600 프레임 / 약 256k 토큰)에 대한 RL 훈련을 지원합니다.