HyperAIHyperAI
il y a 2 mois

Espaces d'états structurés sélectifs pour la compréhension de vidéos longues

Jue Wang; Wentao Zhu; Pichao Wang; Xiang Yu; Linda Liu; Mohamed Omar; Raffay Hamid
Espaces d'états structurés sélectifs pour la compréhension de vidéos longues
Résumé

La modélisation efficace des dépendances spatio-temporelles complexes dans les vidéos de longue durée reste un problème ouvert. Le modèle Structured State-Space Sequence (S4) récemment proposé, avec sa complexité linéaire, offre une direction prometteuse dans ce domaine. Cependant, nous démontrons que le traitement de tous les jetons d'image de manière égale, comme le fait le modèle S4, peut avoir un impact négatif sur son efficacité et sa précision. Pour remédier à cette limitation, nous présentons un nouveau modèle Selective S4 (c'est-à-dire S5) qui utilise un générateur de masque léger pour sélectionner de manière adaptative les jetons d'image informatifs, ce qui permet une modélisation plus efficace et précise des dépendances spatio-temporelles à long terme dans les vidéos. Contrairement aux méthodes précédentes de réduction de jetons basées sur des masques utilisées dans les transformateurs, notre modèle S5 évite le calcul d'auto-attention dense en s'appuyant sur la guidance du modèle S4 mis à jour par l'élan. Cela permet à notre modèle d'éliminer efficacement les jetons moins informatifs et de s'adapter plus efficacement à diverses tâches de compréhension des vidéos de longue durée. Toutefois, comme c'est le cas pour la plupart des méthodes de réduction de jetons, il est possible que les jetons d'image informatifs soient incorrectement éliminés. Pour améliorer la robustesse et l'horizon temporel de notre modèle, nous proposons une nouvelle approche d'apprentissage contrastif masqué à long et court terme (LSMCL) qui permet à notre modèle de prédire un contexte temporel plus long à partir de vidéos d'entrée plus courtes. Nous présentons des résultats comparatifs exhaustifs utilisant trois jeux de données difficiles pour la compréhension des vidéos de longue durée (LVU, COIN et Breakfast), démontrant que notre approche dépasse constamment le modèle S4 précédemment considéré comme l'état de l'art, avec une amélioration pouvant atteindre 9,6 % en précision tout en réduisant son empreinte mémoire de 23 %.