LITA : Assistant de Localisation Temporelle Guidé par la Langue

Des progrès considérables ont été réalisés dans les grands modèles de langage multimodaux (LLMs). Des travaux récents ont étendu ces modèles à l'entrée vidéo avec des capacités prometteuses de suivi d'instructions. Cependant, un élément important manque encore : la localisation temporelle. Ces modèles ne peuvent pas répondre précisément aux questions de type « Quand ? ». Nous identifions trois aspects clés qui limitent leurs capacités de localisation temporelle : (i) la représentation du temps, (ii) l'architecture, et (iii) les données. Pour remédier à ces lacunes, nous proposons l'Assistant de Localisation Temporelle Guidé par le Langage (LITA) doté des caractéristiques suivantes : (1) Nous introduisons des jetons temporels qui encodent les horodatages relatifs à la durée totale de la vidéo pour mieux représenter le temps dans les vidéos. (2) Nous intégrons des jetons SlowFast dans l'architecture afin de capturer l'information temporelle à une résolution temporelle fine. (3) Nous mettons l'accent sur les données de localisation temporelle pour LITA. Outre l'utilisation des jeux de données vidéo existants avec horodatages, nous proposons une nouvelle tâche, la Raisonnement de Localisation Temporelle (RTL), ainsi que le jeu de données ActivityNet-RTL, pour apprendre et évaluer cette tâche. Le raisonnement de localisation temporelle nécessite à la fois le raisonnement et la localisation temporelle des LLMs vidéo. LITA montre des performances solides sur cette tâche difficile, presque doublant le taux moyen d'intersection sur union temporelle (mIoU) des modèles de base. De plus, nous démontrons que notre accent mis sur la localisation temporelle améliore également considérablement la génération de texte basée sur la vidéo par rapport aux LLMs vidéo existants, y compris une amélioration relative de 36 % en Compréhension Temporelle. Le code est disponible à l'adresse suivante : https://github.com/NVlabs/LITA