장기 비디오에 RL 확장

우리는 비전-언어 모델(VLMs)에서 긴 영상의 추론을 확장하기 위해 강화 학습을 활용한 전체 스택 프레임워크를 소개합니다. 이 프레임워크는 긴 영상 추론의 독특한 도전 과제를 해결하기 위해 세 가지 중요한 구성 요소를 통합합니다: (1) 스포츠, 게임, 블로그 등 다양한 분야에서 고품질의 추론 주석이 포함된 52,000개의 긴 영상 QA 쌍으로 구성된 대규모 데이터셋인 LongVideo-Reason; (2) 사고 과정 지도 미세 조정(Chain-of-Thought Supervised Fine-Tuning, CoT-SFT)과 강화 학습(Reinforcement Learning, RL)을 확장하는 두 단계 훈련 파이프라인; 그리고 (3) 캐시된 영상 임베딩을 사용하여 효율적인 롤아웃과 프리필링을 수행하는 시퀀스 병렬성과 vLLM 기반 엔진을 결합한 긴 영상 RL 훈련 인프라스트럭처인 다중 모달 강화 시퀀스 병렬성(Multi-modal Reinforcement Sequence Parallelism, MR-SP).실험 결과, LongVILA-R1-7B는 VideoMME와 같은 긴 영상 QA 벤치마크에서 우수한 성능을 보였습니다. 또한 LongVILA-R1-7B는 Video-R1-7B보다 우수하며, 시간적 추론, 목표 및 목적 추론, 공간적 추론, 플롯 추론 등에서 Gemini-1.5-Pro와 맞먹는 성능을 보였습니다. 특히 우리의 MR-SP 시스템은 긴 영상 RL 훈련에서 최대 2.1배의 속도 향상을 달성했습니다. LongVILA-R1은 입력 영상 프레임 수가 증가함에 따라 일관된 성능 개선을 보입니다. LongVILA-R1은 VLMs에서의 긴 영상 추론에 대한 확실한 발걸음을 내딛고 있습니다.또한, 우리는 다양한 모달리티(영상, 텍스트, 오디오), 다양한 모델(VILA 및 Qwen 시리즈), 심지어 이미지 및 영상 생성 모델에서도 RL 훈련을 지원하는 공개용 훈련 시스템을 제공합니다. 단일 A100 노드(8개 GPU)에서는 1시간 길이의 영상(예: 3,600 프레임 / 약 256k 토큰)에 대한 RL 훈련을 지원합니다.