il y a 2 mois

Transfert de contexte long de la langue à la vision

Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu

Voir les détails de l'article

Transfert de contexte long de la langue à la vision

Résumé

Les séquences vidéo offrent des informations temporelles précieuses, mais les modèles multimodaux de grande taille (LMMs) actuels ont des difficultés à comprendre des vidéos extrêmement longues. De nombreuses études abordent ce problème en réduisant le nombre de jetons visuels grâce à des rééchantillonneurs visuels. Dans cet article, nous adoptons une approche différente en nous concentrant sur le modèle linguistique. En extrapolant simplement la longueur du contexte du noyau linguistique, nous permettons aux LMMs de comprendre un ordre de grandeur supérieur de jetons visuels sans aucune formation vidéo supplémentaire. Nous appelons ce phénomène le transfert de long contexte et nous l'analysons soigneusement. Pour mesurer efficacement la capacité des LMMs à généraliser à des contextes longs dans la modalité visuelle, nous avons développé V-NIAH (Visual Needle-In-A-Haystack), un benchmark purement synthétique pour la vision à long terme inspiré par le test NIAH des modèles linguistiques. Notre assistant vidéo long (LongVA) proposé peut traiter 2000 images ou plus de 200 000 jetons visuels sans complexités supplémentaires. Grâce à sa longueur de contexte étendue, LongVA atteint des performances d'état de l'art sur Video-MME parmi les modèles d'échelle 7B en échantillonnant densément plus d'images d'entrée. Notre travail est open-source et disponible sur https://github.com/EvolvingLMMs-Lab/LongVA.