il y a 8 mois

Xiaoqian Shen Yunyang Xiong Changsheng Zhao Lemeng Wu Jun Chen Chenchen Zhu Zechun Liu Fanyi Xiao Balakrishnan Varadarajan Florian Bordes

Résumé

Les Modèles Linguistiques Multimodaux à Grande Échelle (MLLMs) ont montré des progrès prometteurs dans la compréhension et l'analyse du contenu vidéo. Cependant, le traitement de vidéos longues reste un défi majeur en raison de la taille limitée du contexte des MLLMs. Pour surmonter cette limitation, nous proposons LongVU, un mécanisme d'adaptation spatio-temporelle qui réduit le nombre de jetons vidéo tout en préservant les détails visuels des vidéos longues. Notre approche repose sur l'exploitation des requêtes inter-modales et des dépendances inter-images pour réduire de manière adaptative la redondance temporelle et spatiale dans les vidéos. Plus précisément, nous utilisons les caractéristiques DINOv2 pour éliminer les images redondantes présentant une forte similarité. Ensuite, nous mettons en œuvre une requête inter-modale guidée par le texte pour réduire sélectivement les caractéristiques des images. De plus, nous effectuons une réduction spatiale des jetons au fil des images en fonction de leurs dépendances temporelles. Notre stratégie d'adaptation permet de traiter un grand nombre d'images avec une perte minimale d'informations visuelles dans le cadre d'une longueur de contexte donnée. LongVU surpasse constamment les méthodes existantes sur diverses基准 (benchmarks) de compréhension vidéo, notamment sur les tâches de compréhension de vidéos d'une heure comme VideoMME et MLVU. Avec un modèle linguistique léger, notre LongVU s'échelonne également efficacement vers une taille plus petite tout en offrant des performances de pointe en compréhension vidéo.Note: "基准" est remplacé par "benchmarks" car il s'agit d'un terme technique couramment utilisé en français dans ce contexte.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Vision Par Ordinateur

Tâche

Xiaoqian Shen Yunyang Xiong Changsheng Zhao Lemeng Wu Jun Chen Chenchen Zhu Zechun Liu Fanyi Xiao Balakrishnan Varadarajan Florian Bordes

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Vision Par Ordinateur

Tâche

Xiaoqian Shen Yunyang Xiong Changsheng Zhao Lemeng Wu Jun Chen Chenchen Zhu Zechun Liu Fanyi Xiao Balakrishnan Varadarajan Florian Bordes

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

LongVU : Compression spatiotemporelle adaptative pour la compréhension vidéo-linguistique à long terme | Articles | HyperAI

Command Palette

LongVU : Compression spatiotemporelle adaptative pour la compréhension vidéo-linguistique à long terme

Xiaoqian Shen Yunyang Xiong Changsheng Zhao Lemeng Wu Jun Chen Chenchen Zhu Zechun Liu Fanyi Xiao Balakrishnan Varadarajan Florian Bordes7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LongVU : Compression spatiotemporelle adaptative pour la compréhension vidéo-linguistique à long terme

Xiaoqian Shen Yunyang Xiong Changsheng Zhao Lemeng Wu Jun Chen Chenchen Zhu Zechun Liu Fanyi Xiao Balakrishnan Varadarajan Florian Bordes7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LongVU : Compression spatiotemporelle adaptative pour la compréhension vidéo-linguistique à long terme

Xiaoqian Shen Yunyang Xiong Changsheng Zhao Lemeng Wu Jun Chen Chenchen Zhu Zechun Liu Fanyi Xiao Balakrishnan Varadarajan Florian Bordes7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Xiaoqian Shen Yunyang Xiong Changsheng Zhao Lemeng Wu Jun Chen Chenchen Zhu Zechun Liu Fanyi Xiao Balakrishnan Varadarajan Florian Bordes

Xiaoqian Shen Yunyang Xiong Changsheng Zhao Lemeng Wu Jun Chen Chenchen Zhu Zechun Liu Fanyi Xiao Balakrishnan Varadarajan Florian Bordes

Xiaoqian Shen Yunyang Xiong Changsheng Zhao Lemeng Wu Jun Chen Chenchen Zhu Zechun Liu Fanyi Xiao Balakrishnan Varadarajan Florian Bordes