Extrapolation temporelle efficace des grands modèles linguistiques multimodaux grâce à un pont d'amarrage temporel

Malgré les progrès réalisés dans les modèles linguistiques à grande échelle multimodaux (MLLM), le défi de l’interprétation de vidéos longues en réponse à des requêtes linguistiques persiste, en grande partie en raison de l’inefficacité du repérage temporel et de la taille limitée de la fenêtre contextuelle pré-entraînée. Dans ce travail, nous introduisons Temporal Grounding Bridge (TGB), un cadre novateur qui confère aux MLLM des capacités avancées de repérage temporel et élargit leur portée contextuelle. Notre cadre améliore significativement les capacités temporelles des MLLM actuels grâce à trois innovations clés : un algorithme efficace de repérage temporel multi-intervalle appliqué à des caractéristiques temporelles à faible dimension projetées à partir du flux optique ; un paradigme d’entraînement d’extrapolation de longueur multimodale qui utilise des caractéristiques temporelles à faible dimension pour étendre la taille de la fenêtre contextuelle d’entraînement ; et un cadre d’auto-entraînement (bootstrapping) qui relie notre modèle à des MLLM plug-in sans nécessiter d’étiquetage. Nous validons TGB sur sept benchmarks vidéo et démontrons des améliorations substantielles par rapport aux MLLM précédents. Notamment, notre modèle, initialement entraîné sur des séquences de quatre images, parvient à traiter efficacement des séquences jusqu’à 16 fois plus longues sans compromettre ses performances, mettant ainsi en évidence sa scalabilité et son efficacité dans des applications réelles. Notre code est disponible publiquement à l’adresse suivante : https://github.com/bigai-nlco/VideoTGB