LLaVA-Scissor : Compression de jetons avec des composantes sémantiques connexes pour les LLMs vidéo

Dans cet article, nous présentons LLaVA-Scissor, une stratégie de compression de jetons sans apprentissage conçue pour les grands modèles langagiers multimodaux vidéo. Les méthodes précédentes tentent principalement de compresser les jetons en se basant sur les scores d'attention, mais échouent à capturer efficacement toutes les régions sémantiques et entraînent souvent une redondance des jetons. Différemment, nous proposons d'utiliser l'approche des Composants Connexes Sémantiques (SCC) qui attribue des jetons à des régions sémantiques distinctes au sein de l'ensemble de jetons, garantissant ainsi une couverture sémantique complète. Le résultat est une stratégie de compression spatio-temporelle en deux étapes qui utilise le SCC dans les domaines spatial et temporel. Cette stratégie peut compresser efficacement les jetons en représentant la totalité de la vidéo par un ensemble de jetons sémantiques non superposés. Nous menons des évaluations approfondies des capacités de compression de jetons de LLaVA-Scissor sur diverses基准 (benchmarks) d'analyse vidéo, y compris la réponse aux questions vidéo, la compréhension des vidéos longues et les benchmarks à choix multiples complets. Les résultats expérimentaux montrent que la méthode proposée LLaVA-Scissor surpassent d'autres méthodes de compression de jetons, atteignant des performances supérieures dans divers benchmarks d'analyse vidéo, particulièrement à faibles taux de rétention de jetons. Page du projet : https://github.com/HumanMLLM/LLaVA-Scissor.注:在“diverses基准”中,“基准”是中文词汇,我将其翻译为“benchmarks”,并在后面加上了英文原词以确保信息完整。