HyperAIHyperAI

Command Palette

Search for a command to run...

LITA : Assistant de Localisation Temporelle Guidé par la Langue

De-An Huang Shijia Liao Subhashree Radhakrishnan Hongxu Yin Pavlo Molchanov Zhiding Yu Jan Kautz

Résumé

Des progrès considérables ont été réalisés dans les grands modèles de langage multimodaux (LLMs). Des travaux récents ont étendu ces modèles à l'entrée vidéo avec des capacités prometteuses de suivi d'instructions. Cependant, un élément important manque encore : la localisation temporelle. Ces modèles ne peuvent pas répondre précisément aux questions de type « Quand ? ». Nous identifions trois aspects clés qui limitent leurs capacités de localisation temporelle : (i) la représentation du temps, (ii) l'architecture, et (iii) les données. Pour remédier à ces lacunes, nous proposons l'Assistant de Localisation Temporelle Guidé par le Langage (LITA) doté des caractéristiques suivantes : (1) Nous introduisons des jetons temporels qui encodent les horodatages relatifs à la durée totale de la vidéo pour mieux représenter le temps dans les vidéos. (2) Nous intégrons des jetons SlowFast dans l'architecture afin de capturer l'information temporelle à une résolution temporelle fine. (3) Nous mettons l'accent sur les données de localisation temporelle pour LITA. Outre l'utilisation des jeux de données vidéo existants avec horodatages, nous proposons une nouvelle tâche, la Raisonnement de Localisation Temporelle (RTL), ainsi que le jeu de données ActivityNet-RTL, pour apprendre et évaluer cette tâche. Le raisonnement de localisation temporelle nécessite à la fois le raisonnement et la localisation temporelle des LLMs vidéo. LITA montre des performances solides sur cette tâche difficile, presque doublant le taux moyen d'intersection sur union temporelle (mIoU) des modèles de base. De plus, nous démontrons que notre accent mis sur la localisation temporelle améliore également considérablement la génération de texte basée sur la vidéo par rapport aux LLMs vidéo existants, y compris une amélioration relative de 36 % en Compréhension Temporelle. Le code est disponible à l'adresse suivante : https://github.com/NVlabs/LITA


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp