Numéroter : Vidéos d'ancrage temporel comme la transformation de mangas

Les Modèles de Langue à Grande Échelle pour Vidéo (Vid-LLMs) ont réalisé des avancées remarquables dans la compréhension du contenu vidéo pour le dialogue QA. Cependant, ils éprouvent des difficultés à étendre cette compréhension visuelle aux tâches nécessitant une localisation temporelle précise, connue sous le nom de Localisation Temporelle Vidéo (VTG). Pour combler cette lacune, nous présentons Number-Prompt (NumPro), une nouvelle méthode qui permet aux Vid-LLMs de relier la compréhension visuelle à la localisation temporelle en ajoutant des identifiants numériques uniques à chaque image de la vidéo. En traitant une vidéo comme une séquence d'images numérotées, NumPro transforme la VTG en un processus intuitif : feuilleter les panneaux d'un manga dans l'ordre. Cela permet aux Vid-LLMs de « lire » les chronologies des événements, en reliant avec précision le contenu visuel aux informations temporelles correspondantes. Nos expérimentations montrent que NumPro améliore considérablement les performances de VTG des meilleurs Vid-LLMs sans coût computationnel supplémentaire. De plus, l'ajustement fin sur un ensemble de données enrichi par NumPro établit un nouveau niveau d'excellence pour la VTG, surpassant les méthodes précédemment performantes jusqu'à 6,9 % en mIoU pour la recherche de moments et 8,5 % en mAP pour la détection de points saillants. Le code sera disponible sur https://github.com/yongliang-wu/NumPro.