il y a 2 mois

TimeChat : Un modèle linguistique multimodal sensible au temps pour la compréhension de vidéos longues

Shuhuai Ren; Linli Yao; Shicheng Li; Xu Sun; Lu Hou

Résumé

Ce travail propose TimeChat, un grand modèle linguistique multimodal sensible au temps, spécifiquement conçu pour la compréhension de vidéos longues. Notre modèle intègre deux contributions architecturales clés : (1) un encodeur de trames sensible aux timestamps qui associe le contenu visuel à l'horodatage de chaque trame, et (2) une version glissante du Q-Former vidéo qui génère une séquence de jetons vidéo de longueurs variables pour s'adapter aux vidéos de différentes durées. De plus, nous avons construit un ensemble de données d'ajustement des instructions, couvrant 6 tâches et comprenant un total de 125 000 instances, afin d'améliorer davantage les capacités de suivi des instructions de TimeChat. Les résultats expérimentaux sur diverses tâches de compréhension vidéo, telles que la légendage dense, l'ancrage temporel et la détection des moments forts, montrent les fortes capacités de localisation temporelle et de raisonnement en situation zéro-shot de TimeChat. Par exemple, il obtient un score F1 +9,2 et un CIDEr +2,8 sur YouCook2, un HIT@1 +5,8 sur QVHighlights, et un R@1 +27,5 (IoU=0,5) sur Charades-STA, comparativement aux modèles linguistiques vidéo les plus avancés actuellement disponibles. Ce modèle présente donc le potentiel d'être un assistant vidéo polyvalent pour les tâches de compréhension de vidéos longues et de répondre aux exigences réalistes des utilisateurs.