HyperAIHyperAI

Command Palette

Search for a command to run...

VTimeLLM : Doter les LLM de la capacité de saisir les moments vidéo

Bin Huang Xin Wang* Hong Chen Zihan Song Wenwu Zhu*

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités remarquables en matière de compréhension du texte, qui ont été étendues aux modèles de langage vidéo (Video LLMs) pour traiter les données vidéo et comprendre les détails visuels. Cependant, les Video LLMs existants ne peuvent fournir qu'une description grossière de l'ensemble de la vidéo, échouant à capturer les limites précises de temps de début et de fin d'événements spécifiques. Dans cet article, nous résolvons ce problème en proposant VTimeLLM, un nouveau modèle de langage vidéo conçu pour une compréhension et un raisonnement fins des moments vidéo en fonction des limites temporelles. Plus précisément, notre VTimeLLM adopte une stratégie d'entraînement en trois étapes axée sur les limites, qui utilise respectivement des paires image-texte pour l'alignement des caractéristiques, des vidéos à événements multiples pour augmenter la sensibilité aux limites temporelles, et un ajustement haute qualité des instructions vidéo pour améliorer davantage la capacité de compréhension temporelle ainsi que l'alignement avec les intentions humaines. De nombreuses expériences montrent que dans des tâches de compréhension temporelle fine liées aux vidéos telles que le positionnement temporel vidéo (Temporal Video Grounding) et la légendage dense vidéo (Dense Video Captioning), VTimeLLM surpasse considérablement les Video LLMs existants. En outre, grâce à sa compréhension temporelle fine des vidéos, VTimeLLM est également capable de surpasser les Video LLMs existants dans le domaine du dialogue vidéo, démontrant ses capacités supérieures en matière de compréhension et de raisonnement intermodaux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp