Command Palette
Search for a command to run...
TempSamp-R1 : Échantillonnage temporel efficace avec une adaptation par renforcement pour les modèles linguistiques vidéo
Yunheng Li Jing Cheng Shaoyong Jia Hangyi Kuang Shaohui Jiao Qibin Hou Ming-Ming Cheng

Résumé
Cet article présente TempSamp-R1, un nouveau cadre de finetuning par renforcement conçu pour améliorer l'efficacité de l'adaptation des modèles linguistiques massifs multimodaux (MLLM) aux tâches de localisation temporelle dans les vidéos. Nous montrons que les méthodes de renforcement apprenant existantes, telles que l’Optimisation Politique Relative par Groupe (GRPO), reposent sur un échantillonnage en politique (on-policy) pour les mises à jour de la politique. Toutefois, dans les tâches présentant des espaces de recherche temporelle importants, cette stratégie s’avère à la fois inefficace et limitée en performance, car elle échoue fréquemment à identifier des solutions temporellement précises. Pour pallier cette limitation, TempSamp-R1 exploite les annotations de vérité terrain comme supervision hors politique (off-policy) afin de fournir une guidance temporelle précise, compensant efficacement la rareté et le désalignement des solutions obtenues en politique. Afin de stabiliser davantage l’entraînement et de réduire la variance des mises à jour basées sur la récompense, TempSamp-R1 introduit une méthode non linéaire de calcul de l’avantage doux (soft advantage), qui redéfinit dynamiquement le retour de récompense par une transformation asymétrique. En adoptant un paradigme hybride d’entraînement par Chaîne de Raisonnement (Chain-of-Thought, CoT), TempSamp-R1 optimise un modèle unique et unifié capable de supporter à la fois les modes d’inférence avec et sans CoT, permettant ainsi une gestion efficace des requêtes présentant une complexité de raisonnement variable. Les résultats expérimentaux montrent que TempSamp-R1 surpasser les baselines basées sur GRPO, établissant de nouvelles performances de pointe sur des jeux de données de référence : Charades-STA (R1@0.7 : 52,9 %, +2,7 %), ActivityNet Captions (R1@0,5 : 56,0 %, +5,3 %) et QVHighlights (mAP : 30,0 %, +3,0 %). De plus, TempSamp-R1 démontre une robuste capacité de généralisation en peu d’exemples (few-shot) même avec des données limitées. Code : https://github.com/HVision-NKU/TempSamp-R1
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.