HyperAIHyperAI

Command Palette

Search for a command to run...

Elysium : Exploration de la perception au niveau des objets dans les vidéos via MLLM

Han Wang Yanjie Wang Yongjie Ye Yuxiang Nie Can Huang

Résumé

Les Modèles de Langue Multimodaux à Grande Échelle (MLLMs) ont démontré leur capacité à percevoir des objets dans des images fixes, mais leur application dans les tâches liées aux vidéos, telles que le suivi d'objets, reste peu explorée. Ce manque d'exploration est principalement dû à deux défis majeurs. Premièrement, une préformation extensive sur de grands ensembles de données vidéo est nécessaire pour doter les MLLMs de la capacité de percevoir des objets sur plusieurs images et de comprendre les relations inter-images. Deuxièmement, le traitement d'un grand nombre d'images dans la fenêtre contextuelle des Modèles de Langue à Grande Échelle (LLMs) peut entraîner un fardeau informatique considérable. Pour relever le premier défi, nous présentons ElysiumTrack-1M, un ensemble de données vidéo à grande échelle conçu pour trois tâches : le Suivi d'un Seul Objet (SOT), le Suivi d'un Seul Objet par Référence (RSOT) et la Génération d'Expressions Référentielles Vidéo (Video-REG). ElysiumTrack-1M contient 1,27 million d'images vidéo annotées avec leurs boîtes englobantes correspondantes et leurs descriptions. En utilisant cet ensemble de données, nous effectuons l'entraînement des MLLMs et proposons un modèle de compression de jetons appelé T-Selector pour aborder le deuxième défi. Notre approche proposée, Elysium : Exploration de la Perception au Niveau des Objets dans les Vidéos via MLLM, est un MLLM entièrement entraînable qui vise à réaliser des tâches au niveau des objets dans les vidéos sans nécessiter aucun plugin supplémentaire ou modèle expert. Tous les codes et ensembles de données sont disponibles sur https://github.com/Hon-Wong/Elysium.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp