HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-MR : Grand assistant linguistique et visuel pour la recherche de moments vidéo

Weiheng Lu Jian Li* An Yu Ming-Ching Chang Shengpeng Ji Min Xia

Résumé

Les Modèles de Langue Multimodaux à Grande Échelle (MLLMs) sont largement utilisés pour la perception, la compréhension et le raisonnement visuels. Cependant, le traitement de vidéos longues et la récupération précise de moments restent des défis en raison de la taille limitée du contexte des MLLMs et de l'extraction grossière des images. Nous proposons l'Assistant de Langue et Vision à Grande Échelle pour la Récupération de Moments (LLaVA-MR), qui permet une récupération précise de moments et un ancrage contextuel dans les vidéos grâce aux MLLMs. LLaVA-MR combine l'Encodage Densément Temporel et Spatiale des Images (DFTE) pour l'extraction de caractéristiques spatio-temporelles, la Sélection d'Images Informatives (IFS) pour capturer des motifs visuels et mouvements brefs, ainsi que la Compression Dynamique de Tokens (DTC) pour gérer les limitations du contexte des MLLMs. Les évaluations sur des benchmarks tels que Charades-STA et QVHighlights montrent que LLaVA-MR surpasse 11 méthodes d'avant-garde, réalisant une amélioration de 1,82 % en R1@0,5 et de 1,29 % en mAP@0,5 sur le jeu de données QVHighlights. Notre implémentation sera mise à disposition sous licence open source dès son acceptation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp