Elysium : Exploration de la perception au niveau des objets dans les vidéos via MLLM

Les Modèles de Langue Multimodaux à Grande Échelle (MLLMs) ont démontré leur capacité à percevoir des objets dans des images fixes, mais leur application dans les tâches liées aux vidéos, telles que le suivi d'objets, reste peu explorée. Ce manque d'exploration est principalement dû à deux défis majeurs. Premièrement, une préformation extensive sur de grands ensembles de données vidéo est nécessaire pour doter les MLLMs de la capacité de percevoir des objets sur plusieurs images et de comprendre les relations inter-images. Deuxièmement, le traitement d'un grand nombre d'images dans la fenêtre contextuelle des Modèles de Langue à Grande Échelle (LLMs) peut entraîner un fardeau informatique considérable. Pour relever le premier défi, nous présentons ElysiumTrack-1M, un ensemble de données vidéo à grande échelle conçu pour trois tâches : le Suivi d'un Seul Objet (SOT), le Suivi d'un Seul Objet par Référence (RSOT) et la Génération d'Expressions Référentielles Vidéo (Video-REG). ElysiumTrack-1M contient 1,27 million d'images vidéo annotées avec leurs boîtes englobantes correspondantes et leurs descriptions. En utilisant cet ensemble de données, nous effectuons l'entraînement des MLLMs et proposons un modèle de compression de jetons appelé T-Selector pour aborder le deuxième défi. Notre approche proposée, Elysium : Exploration de la Perception au Niveau des Objets dans les Vidéos via MLLM, est un MLLM entièrement entraînable qui vise à réaliser des tâches au niveau des objets dans les vidéos sans nécessiter aucun plugin supplémentaire ou modèle expert. Tous les codes et ensembles de données sont disponibles sur https://github.com/Hon-Wong/Elysium.