HyperAIHyperAI

Command Palette

Search for a command to run...

Transfert de contexte long de la langue à la vision

Peiyuan Zhang Kaichen Zhang Bo Li Guangtao Zeng Jingkang Yang Yuanhan Zhang Ziyue Wang Haoran Tan Chunyuan Li Ziwei Liu

Résumé

Les séquences vidéo offrent des informations temporelles précieuses, mais les modèles multimodaux de grande taille (LMMs) actuels ont des difficultés à comprendre des vidéos extrêmement longues. De nombreuses études abordent ce problème en réduisant le nombre de jetons visuels grâce à des rééchantillonneurs visuels. Dans cet article, nous adoptons une approche différente en nous concentrant sur le modèle linguistique. En extrapolant simplement la longueur du contexte du noyau linguistique, nous permettons aux LMMs de comprendre un ordre de grandeur supérieur de jetons visuels sans aucune formation vidéo supplémentaire. Nous appelons ce phénomène le transfert de long contexte et nous l'analysons soigneusement. Pour mesurer efficacement la capacité des LMMs à généraliser à des contextes longs dans la modalité visuelle, nous avons développé V-NIAH (Visual Needle-In-A-Haystack), un benchmark purement synthétique pour la vision à long terme inspiré par le test NIAH des modèles linguistiques. Notre assistant vidéo long (LongVA) proposé peut traiter 2000 images ou plus de 200 000 jetons visuels sans complexités supplémentaires. Grâce à sa longueur de contexte étendue, LongVA atteint des performances d'état de l'art sur Video-MME parmi les modèles d'échelle 7B en échantillonnant densément plus d'images d'entrée. Notre travail est open-source et disponible sur https://github.com/EvolvingLMMs-Lab/LongVA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp