HyperAIHyperAI
il y a 2 mois

ReVisionLLM : Modèle récursif de vision-langue pour l'ancrage temporel dans des vidéos d'une heure

Hannan, Tanveer ; Islam, Md Mohaiminul ; Gu, Jindong ; Seidl, Thomas ; Bertasius, Gedas
ReVisionLLM : Modèle récursif de vision-langue pour l'ancrage temporel dans des vidéos d'une heure
Résumé

Les grands modèles de langage (LLMs) excellent dans la récupération d'informations à partir de textes longs, mais leurs homologues vision-langage (VLMs) rencontrent des difficultés avec les vidéos d'une heure, en particulier pour le positionnement temporel. Plus précisément, ces VLMs sont limités par les contraintes de trames, perdant souvent des détails temporels essentiels nécessaires pour une localisation précise des événements dans des contenus vidéo prolongés. Nous proposons ReVisionLLM, un modèle vision-langage récursif conçu pour localiser des événements dans des vidéos d'une heure. Inspiré par les stratégies de recherche humaines, notre modèle cible initialement des segments d'intérêt larges, puis affine progressivement sa focalisation pour identifier les frontières temporelles exactes. Notre modèle peut gérer sans rupture des vidéos de durées très variées, allant de quelques minutes à plusieurs heures. Nous introduisons également une stratégie d'entraînement hiérarchique qui commence par des extraits courts pour capturer des événements distincts et s'étend progressivement à des vidéos plus longues. À notre connaissance, ReVisionLLM est le premier VLM capable de positionnement temporel dans des vidéos d'une heure, surpassant nettement les méthodes précédentes de pointe sur plusieurs jeux de données (avec une amélioration significative de +2,6% [email protected] sur MAD). Le code est disponible à l'adresse suivante : https://github.com/Tanveer81/ReVisionLLM.

ReVisionLLM : Modèle récursif de vision-langue pour l'ancrage temporel dans des vidéos d'une heure | Articles de recherche récents | HyperAI