HyperAIHyperAI

Command Palette

Search for a command to run...

TempSamp-R1 : Échantillonnage temporel efficace avec une adaptation par renforcement pour les modèles linguistiques vidéo

Yunheng Li Jing Cheng Shaoyong Jia Hangyi Kuang Shaohui Jiao Qibin Hou Ming-Ming Cheng

Résumé

Cet article présente TempSamp-R1, un nouveau cadre de finetuning par renforcement conçu pour améliorer l'efficacité de l'adaptation des modèles linguistiques massifs multimodaux (MLLM) aux tâches de localisation temporelle dans les vidéos. Nous montrons que les méthodes de renforcement apprenant existantes, telles que l’Optimisation Politique Relative par Groupe (GRPO), reposent sur un échantillonnage en politique (on-policy) pour les mises à jour de la politique. Toutefois, dans les tâches présentant des espaces de recherche temporelle importants, cette stratégie s’avère à la fois inefficace et limitée en performance, car elle échoue fréquemment à identifier des solutions temporellement précises. Pour pallier cette limitation, TempSamp-R1 exploite les annotations de vérité terrain comme supervision hors politique (off-policy) afin de fournir une guidance temporelle précise, compensant efficacement la rareté et le désalignement des solutions obtenues en politique. Afin de stabiliser davantage l’entraînement et de réduire la variance des mises à jour basées sur la récompense, TempSamp-R1 introduit une méthode non linéaire de calcul de l’avantage doux (soft advantage), qui redéfinit dynamiquement le retour de récompense par une transformation asymétrique. En adoptant un paradigme hybride d’entraînement par Chaîne de Raisonnement (Chain-of-Thought, CoT), TempSamp-R1 optimise un modèle unique et unifié capable de supporter à la fois les modes d’inférence avec et sans CoT, permettant ainsi une gestion efficace des requêtes présentant une complexité de raisonnement variable. Les résultats expérimentaux montrent que TempSamp-R1 surpasser les baselines basées sur GRPO, établissant de nouvelles performances de pointe sur des jeux de données de référence : Charades-STA ([email protected] : 52,9 %, +2,7 %), ActivityNet Captions (R1@0,5 : 56,0 %, +5,3 %) et QVHighlights (mAP : 30,0 %, +3,0 %). De plus, TempSamp-R1 démontre une robuste capacité de généralisation en peu d’exemples (few-shot) même avec des données limitées. Code : https://github.com/HVision-NKU/TempSamp-R1


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp