HyperAIHyperAI
il y a un mois

Étendre l'RL aux Vidéos Longues

Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han
Étendre l'RL aux Vidéos Longues
Résumé

Nous présentons un cadre complet qui permet d'augmenter la capacité de raisonnement des modèles vision-langue (VLMs) pour les vidéos longues, en utilisant l'apprentissage par renforcement. Nous abordons les défis uniques du raisonnement sur les vidéos longues en intégrant trois composants critiques : (1) une base de données à grande échelle, LongVideo-Reason, comprenant 52 000 paires de questions-réponses sur des vidéos longues avec des annotations de raisonnement de haute qualité dans divers domaines tels que le sport, les jeux et les vlogs ; (2) une pipeline d'entraînement en deux étapes qui étend les VLMs avec un affinage supervisé par chaîne de pensée (CoT-SFT) et l'apprentissage par renforcement (RL) ; et (3) une infrastructure d'entraînement pour le RL sur les vidéos longues, nommée Parallélisme Séquentiel Multimodal Renforcé (MR-SP), qui incorpore le parallélisme séquentiel et un moteur basé sur vLLM adapté aux vidéos longues, en utilisant des plongements vidéo mis en cache pour des roulages efficaces et des préremplissages.Dans nos expériences, LongVILA-R1-7B obtient des performances solides sur les基准如VideoMME的长视频问答(此处“基准如VideoMME”未完全翻译成法语,我将继续完善)benchmarks de QA sur vidéos longues telles que VideoMME. Il surpass également Video-R1-7B et égale même Gemini-1.5-Pro dans le raisonnement temporel, le raisonnement sur les objectifs et buts, le raisonnement spatial et le raisonnement narratif selon notre benchmark d'évaluation LongVideo-Reason-eval. De manière notable, notre système MR-SP atteint jusqu'à 2,1 fois plus de rapidité lors de l'entraînement du RL sur les vidéos longues. LongVILA-R1 montre des améliorations constantes des performances lorsque le nombre de trames vidéo d'entrée augmente. LongVILA-R1 représente une étape importante vers le raisonnement sur les vidéos longues dans les VLMs.De plus, nous mettons à disposition notre système d'entraînement au public, qui prend en charge l'entraînement par renforcement sur différentes modalités (vidéo, texte et audio), différents modèles (série VILA et Qwen), ainsi que des modèles de génération d'images et de vidéos. Sur un seul nœud A100 (8 GPU), il supporte l'entraînement par renforcement sur des vidéos d'une heure (par exemple, 3 600 trames / environ 256 000 tokens).

Étendre l'RL aux Vidéos Longues | Articles de recherche récents | HyperAI