LinVT : Doter Votre Modèle Linguistique Grand et Basé sur les Images de la Capacité de Comprendre les Vidéos

Les grands modèles de langage (LLMs) sont largement utilisés dans diverses tâches, ce qui nous motive à développer un assistant basé sur les LLMs pour les vidéos. Au lieu de former ces modèles à partir de zéro, nous proposons un module permettant de transformer des LLMs d'images bien entraînés en LLMs vidéo (après avoir été formés sur des données vidéo). Pour améliorer l'adaptation des LLMs d'images au traitement des vidéos, nous introduisons deux principes de conception : la transformation linéaire pour préserver l'alignement visuel-langage original et la condensation d'informations représentatives issues du contenu vidéo redondant. Guidés par ces principes, nous proposons un Linear Video Tokenizer (LinVT) prêt à l'emploi, qui permet aux LLMs d'images existants de comprendre les vidéos. Nous évaluons le LinVT avec six modèles de langage visuels récents : Aquila, Blip-3, InternVL2, Mipha, Molmo et Qwen2-VL, mettant en lumière la haute compatibilité du LinVT. Les LLMs basés sur LinVT atteignent des performances de pointe dans diverses benchmarks vidéo, illustrant l'efficacité du LinVT dans la compréhension multimodale des vidéos.