il y a 2 mois

VTimeLLM : Doter les LLM de la capacité de saisir les moments vidéo

Bin Huang; Xin Wang; Hong Chen; Zihan Song; Wenwu Zhu

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités remarquables en matière de compréhension du texte, qui ont été étendues aux modèles de langage vidéo (Video LLMs) pour traiter les données vidéo et comprendre les détails visuels. Cependant, les Video LLMs existants ne peuvent fournir qu'une description grossière de l'ensemble de la vidéo, échouant à capturer les limites précises de temps de début et de fin d'événements spécifiques. Dans cet article, nous résolvons ce problème en proposant VTimeLLM, un nouveau modèle de langage vidéo conçu pour une compréhension et un raisonnement fins des moments vidéo en fonction des limites temporelles. Plus précisément, notre VTimeLLM adopte une stratégie d'entraînement en trois étapes axée sur les limites, qui utilise respectivement des paires image-texte pour l'alignement des caractéristiques, des vidéos à événements multiples pour augmenter la sensibilité aux limites temporelles, et un ajustement haute qualité des instructions vidéo pour améliorer davantage la capacité de compréhension temporelle ainsi que l'alignement avec les intentions humaines. De nombreuses expériences montrent que dans des tâches de compréhension temporelle fine liées aux vidéos telles que le positionnement temporel vidéo (Temporal Video Grounding) et la légendage dense vidéo (Dense Video Captioning), VTimeLLM surpasse considérablement les Video LLMs existants. En outre, grâce à sa compréhension temporelle fine des vidéos, VTimeLLM est également capable de surpasser les Video LLMs existants dans le domaine du dialogue vidéo, démontrant ses capacités supérieures en matière de compréhension et de raisonnement intermodaux.