HyperAIHyperAI

Command Palette

Search for a command to run...

Extrapolation temporelle efficace des grands modèles linguistiques multimodaux grâce à un pont d'amarrage temporel

Yuxuan Wang Yueqian Wang Pengfei Wu Jianxin Liang Dongyan Zhao Yang Liu Zilong Zheng

Résumé

Malgré les progrès réalisés dans les modèles linguistiques à grande échelle multimodaux (MLLM), le défi de l’interprétation de vidéos longues en réponse à des requêtes linguistiques persiste, en grande partie en raison de l’inefficacité du repérage temporel et de la taille limitée de la fenêtre contextuelle pré-entraînée. Dans ce travail, nous introduisons Temporal Grounding Bridge (TGB), un cadre novateur qui confère aux MLLM des capacités avancées de repérage temporel et élargit leur portée contextuelle. Notre cadre améliore significativement les capacités temporelles des MLLM actuels grâce à trois innovations clés : un algorithme efficace de repérage temporel multi-intervalle appliqué à des caractéristiques temporelles à faible dimension projetées à partir du flux optique ; un paradigme d’entraînement d’extrapolation de longueur multimodale qui utilise des caractéristiques temporelles à faible dimension pour étendre la taille de la fenêtre contextuelle d’entraînement ; et un cadre d’auto-entraînement (bootstrapping) qui relie notre modèle à des MLLM plug-in sans nécessiter d’étiquetage. Nous validons TGB sur sept benchmarks vidéo et démontrons des améliorations substantielles par rapport aux MLLM précédents. Notamment, notre modèle, initialement entraîné sur des séquences de quatre images, parvient à traiter efficacement des séquences jusqu’à 16 fois plus longues sans compromettre ses performances, mettant ainsi en évidence sa scalabilité et son efficacité dans des applications réelles. Notre code est disponible publiquement à l’adresse suivante : https://github.com/bigai-nlco/VideoTGB


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp