HyperAIHyperAI

Command Palette

Search for a command to run...

TimeChat : Un modèle linguistique multimodal sensible au temps pour la compréhension de vidéos longues

Shuhuai Ren Linli Yao Shicheng Li Xu Sun Lu Hou

Résumé

Ce travail propose TimeChat, un grand modèle linguistique multimodal sensible au temps, spécifiquement conçu pour la compréhension de vidéos longues. Notre modèle intègre deux contributions architecturales clés : (1) un encodeur de trames sensible aux timestamps qui associe le contenu visuel à l'horodatage de chaque trame, et (2) une version glissante du Q-Former vidéo qui génère une séquence de jetons vidéo de longueurs variables pour s'adapter aux vidéos de différentes durées. De plus, nous avons construit un ensemble de données d'ajustement des instructions, couvrant 6 tâches et comprenant un total de 125 000 instances, afin d'améliorer davantage les capacités de suivi des instructions de TimeChat. Les résultats expérimentaux sur diverses tâches de compréhension vidéo, telles que la légendage dense, l'ancrage temporel et la détection des moments forts, montrent les fortes capacités de localisation temporelle et de raisonnement en situation zéro-shot de TimeChat. Par exemple, il obtient un score F1 +9,2 et un CIDEr +2,8 sur YouCook2, un HIT@1 +5,8 sur QVHighlights, et un R@1 +27,5 (IoU=0,5) sur Charades-STA, comparativement aux modèles linguistiques vidéo les plus avancés actuellement disponibles. Ce modèle présente donc le potentiel d'être un assistant vidéo polyvalent pour les tâches de compréhension de vidéos longues et de répondre aux exigences réalistes des utilisateurs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp