HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 5 jours

Video-Thinker : Déclencher la « pensée à travers les vidéos » grâce à l'apprentissage par renforcement

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

Video-Thinker : Déclencher la « pensée à travers les vidéos » grâce à l'apprentissage par renforcement

Résumé

Les progrès récents des méthodes de raisonnement visuel, en particulier la méthode dite « penser avec des images », ont démontré un succès remarquable dans les modèles linguistiques à grande échelle multimodaux (MLLM). Toutefois, ce paradigme dynamique de raisonnement n’a pas encore été étendu aux tâches de raisonnement vidéo. Dans cet article, nous proposons Video-Thinker, une approche qui permet aux MLLM de raisonner à partir de vidéos en exploitant de manière autonome leurs capacités intrinsèques de « localisation » (grounding) et de « génération de légendes » (captioning) afin de produire des indices de raisonnement tout au long du processus d’inférence. Pour activer cette capacité, nous avons construit Video-Thinker-10K, un jeu de données soigneusement sélectionné, caractérisé par une utilisation autonome d’outils au sein de séquences de raisonnement en chaîne (chain-of-thought). Notre stratégie d’entraînement commence par une adaptation supervisée (SFT) afin d’apprendre le format de raisonnement, puis s’appuie sur une optimisation politique relative par groupes (GRPO) pour renforcer cette capacité. Grâce à cette approche, Video-Thinker permet aux MLLM de naviguer de manière autonome entre les tâches de localisation et de génération de légendes dans le cadre du raisonnement vidéo, sans avoir recours à des outils externes ni à leur appel explicite. Des expérimentations étendues montrent que Video-Thinker obtient des gains significatifs de performance sur des tâches intrinsèques ainsi que sur des benchmarks exigeants de raisonnement vidéo hors domaine, notamment Video-Holmes, CG-Bench-Reasoning et VRBench. Notre modèle Video-Thinker-7B surpassé largement les méthodes de référence existantes, telles que Video-R1, et établit un nouveau record de performance parmi les MLLM de taille 7 milliards.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Video-Thinker : Déclencher la « pensée à travers les vidéos » grâce à l'apprentissage par renforcement | Articles de recherche | HyperAI