HyperAIHyperAI

Command Palette

Search for a command to run...

장기 비디오에 RL 확장

초록

우리는 비전-언어 모델(VLMs)에서 긴 영상의 추론을 확장하기 위해 강화 학습을 활용한 전체 스택 프레임워크를 소개합니다. 이 프레임워크는 긴 영상 추론의 독특한 도전 과제를 해결하기 위해 세 가지 중요한 구성 요소를 통합합니다: (1) 스포츠, 게임, 블로그 등 다양한 분야에서 고품질의 추론 주석이 포함된 52,000개의 긴 영상 QA 쌍으로 구성된 대규모 데이터셋인 LongVideo-Reason; (2) 사고 과정 지도 미세 조정(Chain-of-Thought Supervised Fine-Tuning, CoT-SFT)과 강화 학습(Reinforcement Learning, RL)을 확장하는 두 단계 훈련 파이프라인; 그리고 (3) 캐시된 영상 임베딩을 사용하여 효율적인 롤아웃과 프리필링을 수행하는 시퀀스 병렬성과 vLLM 기반 엔진을 결합한 긴 영상 RL 훈련 인프라스트럭처인 다중 모달 강화 시퀀스 병렬성(Multi-modal Reinforcement Sequence Parallelism, MR-SP).실험 결과, LongVILA-R1-7B는 VideoMME와 같은 긴 영상 QA 벤치마크에서 우수한 성능을 보였습니다. 또한 LongVILA-R1-7B는 Video-R1-7B보다 우수하며, 시간적 추론, 목표 및 목적 추론, 공간적 추론, 플롯 추론 등에서 Gemini-1.5-Pro와 맞먹는 성능을 보였습니다. 특히 우리의 MR-SP 시스템은 긴 영상 RL 훈련에서 최대 2.1배의 속도 향상을 달성했습니다. LongVILA-R1은 입력 영상 프레임 수가 증가함에 따라 일관된 성능 개선을 보입니다. LongVILA-R1은 VLMs에서의 긴 영상 추론에 대한 확실한 발걸음을 내딛고 있습니다.또한, 우리는 다양한 모달리티(영상, 텍스트, 오디오), 다양한 모델(VILA 및 Qwen 시리즈), 심지어 이미지 및 영상 생성 모델에서도 RL 훈련을 지원하는 공개용 훈련 시스템을 제공합니다. 단일 A100 노드(8개 GPU)에서는 1시간 길이의 영상(예: 3,600 프레임 / 약 256k 토큰)에 대한 RL 훈련을 지원합니다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
장기 비디오에 RL 확장 | 문서 | HyperAI초신경