Lorsque les tokens parlent trop : Une revue de la compression de tokens à longue portée multimodaux dans les images, vidéos et audios

Les modèles de langage à grande échelle multimodaux (MLLMs) ont connu des progrès remarquables, principalement grâce à leur capacité à traiter des contextes de plus en plus longs et complexes, tels que des images à haute résolution, des séquences vidéo prolongées et des entrées audio longues. Bien que cette capacité améliore significativement les performances des MLLMs, elle engendre des défis computationnels importants, en raison principalement de la complexité quadratique des mécanismes d'attention auto-associée face à un grand nombre de tokens d'entrée. Pour atténuer ces goulets d'étranglement, la compression de tokens est devenue une approche prometteuse et cruciale, permettant d'efficacement réduire le nombre de tokens pendant à la fois l'entraînement et l'inférence. Dans cet article, nous présentons la première revue systématique et synthèse du domaine en pleine expansion de la compression de tokens pour les contextes longs multimodaux.En prenant en compte le fait que les stratégies de compression efficaces sont étroitement liées aux caractéristiques uniques et aux redondances de chaque modalité, nous classons les approches existantes selon leur focus principal sur les données, permettant ainsi aux chercheurs d'accéder rapidement et d'apprendre des méthodes adaptées à leur domaine d'intérêt spécifique : (1) la compression centrée sur l'image, qui traite les redondances spatiales dans les données visuelles ; (2) la compression centrée sur la vidéo, qui s'attaque aux redondances spatio-temporelles dans les séquences dynamiques ; et (3) la compression centrée sur l'audio, qui gère les redondances temporelles et spectrales dans les signaux acoustiques. En plus de cette classification axée sur les modalités, nous analysons plus en détail les méthodes en fonction de leurs mécanismes sous-jacents, notamment les approches basées sur les transformations, les approches basées sur la similarité, les approches basées sur l'attention et les approches basées sur les requêtes.En offrant une vue d'ensemble complète et structurée, cette revue vise à synthétiser les progrès actuels, à identifier les défis clés et à inspirer de nouvelles directions de recherche dans ce domaine en évolution rapide. Nous maintenons également un dépôt public pour suivre continuellement et mettre à jour les dernières avancées dans cette zone prometteuse.