Skalierung von RL auf lange Videos

Wir stellen ein vollständiges Framework vor, das die Schließfolgerungsfähigkeit von visuellen Sprachmodellen (VLMs) auf lange Videos skaliert, wobei wir Verstärkungslernen (Reinforcement Learning, RL) nutzen. Wir begegnen den einzigartigen Herausforderungen der Schließfolgerung auf langen Videos durch die Integration dreier wesentlicher Komponenten: (1) einem umfangreichen Datensatz namens LongVideo-Reason, der 52.000 lange Video-Frage-Antwort-Paare mit hochwertigen Schließfolgerungsannotierungen in verschiedenen Bereichen wie Sport, Spiele und Vlogs umfasst; (2) einer zweistufigen Trainingspipeline, die VLMs durch Kette-des-Gedankens-überwachtes Feinjustierungstraining (Chain-of-Thought Supervised Fine-Tuning, CoT-SFT) und Verstärkungslernen erweitert; und (3) einer Trainingsinfrastruktur für langdauerndes Video-RL, genannt Multi-modales Verstärkungssequenzparallellismus (Multi-modal Reinforcement Sequence Parallelism, MR-SP), die Sequenzparallellismus und einen vLLM-basierten Motor speziell für lange Videos nutzt und durch zwischengespeicherte Videobeschreibungen effizientes Rollout und Prefilling ermöglicht.In Experimenten erreicht LongVILA-R1-7B starke Leistungen bei Benchmarks für lange Video-Frage-Antwort-Aufgaben wie VideoMME. Es übertrifft Video-R1-7B und erreicht sogar die Leistung von Gemini-1.5-Pro in Bezug auf zeitliche Schließfolgerung, Ziel- und Zweckschließfolgerung, räumliche Schließfolgerung sowie Handlungsverlaufsschließfolgerung auf unserem Benchmark LongVideo-Reason-eval. Bemerkenswerterweise erreicht unser MR-SP-System eine Geschwindigkeitsverbesserung von bis zu 2,1-fach bei der RL-Trainingsphase für lange Videos. LongVILA-R1 zeigt konstante Leistungssteigerungen mit zunehmender Anzahl der Eingabevideorahmen. LongVILA-R1 markiert einen wichtigen Fortschritt in Richtung Schließfolgerung auf langen Videos in VLMs.Darüber hinaus veröffentlichen wir unser Trainingsystem zur allgemeinen Verfügung, das RL-Trainingsphasen für verschiedene Modalitäten (Video, Text und Audio), verschiedene Modelle (z.B. VILA-Reihe und Qwen-Reihe) sowie Bild- und Videogenerierungsmodelle unterstützt. Auf einem einzelnen A100-Knoten (8 GPUs) ermöglicht es das RL-Training an Stundenlangen Videos (z.B., 3.600 Rahmensequenzen / etwa 256.000 Token).