Command Palette
Search for a command to run...
Video-Thinker : Déclencher la « pensée à travers les vidéos » grâce à l'apprentissage par renforcement
Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

Résumé
Les progrès récents des méthodes de raisonnement visuel, en particulier la méthode dite « penser avec des images », ont démontré un succès remarquable dans les modèles linguistiques à grande échelle multimodaux (MLLM). Toutefois, ce paradigme dynamique de raisonnement n’a pas encore été étendu aux tâches de raisonnement vidéo. Dans cet article, nous proposons Video-Thinker, une approche qui permet aux MLLM de raisonner à partir de vidéos en exploitant de manière autonome leurs capacités intrinsèques de « localisation » (grounding) et de « génération de légendes » (captioning) afin de produire des indices de raisonnement tout au long du processus d’inférence. Pour activer cette capacité, nous avons construit Video-Thinker-10K, un jeu de données soigneusement sélectionné, caractérisé par une utilisation autonome d’outils au sein de séquences de raisonnement en chaîne (chain-of-thought). Notre stratégie d’entraînement commence par une adaptation supervisée (SFT) afin d’apprendre le format de raisonnement, puis s’appuie sur une optimisation politique relative par groupes (GRPO) pour renforcer cette capacité. Grâce à cette approche, Video-Thinker permet aux MLLM de naviguer de manière autonome entre les tâches de localisation et de génération de légendes dans le cadre du raisonnement vidéo, sans avoir recours à des outils externes ni à leur appel explicite. Des expérimentations étendues montrent que Video-Thinker obtient des gains significatifs de performance sur des tâches intrinsèques ainsi que sur des benchmarks exigeants de raisonnement vidéo hors domaine, notamment Video-Holmes, CG-Bench-Reasoning et VRBench. Notre modèle Video-Thinker-7B surpassé largement les méthodes de référence existantes, telles que Video-R1, et établit un nouveau record de performance parmi les MLLM de taille 7 milliards.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.