HyperAIHyperAI
il y a 17 jours

Classification de longs extraits vidéo avec des modèles vidéo à espace d'état

Md Mohaiminul Islam, Gedas Bertasius
Classification de longs extraits vidéo avec des modèles vidéo à espace d'état
Résumé

La plupart des modèles modernes de reconnaissance vidéo sont conçus pour fonctionner sur des extraits vidéo courts (par exemple, de 5 à 10 secondes). Il est donc difficile d’appliquer ces modèles aux tâches d’analyse de films longs, qui exigent généralement des raisonnements temporels à longue portée sophistiqués. Les transformateurs vidéo récemment introduits partiellement résolvent ce problème en utilisant une attention auto-attentionnelle à longue portée. Toutefois, en raison du coût quadratique de l’attention auto-attentionnelle, ces modèles sont souvent coûteux et peu pratiques à utiliser. À la place, nous proposons ViS4mer, un modèle vidéo efficace à longue portée qui combine les avantages de l’attention auto-attentionnelle et de la couche récemment introduite de séquence d’état structuré (S4). Notre modèle utilise un encodeur Transformer standard pour l’extraction de caractéristiques spatio-temporelles à courte portée, suivi d’un décodeur multi-échelle temporel basé sur S4 pour le raisonnement temporel à longue portée. En réduisant progressivement la résolution spatio-temporelle et la dimension des canaux à chaque couche du décodeur, ViS4mer apprend des dépendances spatio-temporelles complexes à longue portée dans une vidéo. En outre, ViS4mer est 2,63 fois plus rapide et nécessite 8 fois moins de mémoire GPU qu’un modèle basé uniquement sur l’attention auto-attentionnelle équivalent. Par ailleurs, ViS4mer atteint des résultats de pointe dans 6 des 9 tâches de classification vidéo de films longs sur le benchmark Long Video Understanding (LVU). En outre, nous démontrons que notre approche se généralise efficacement à d’autres domaines, obtenant des résultats compétitifs sur les jeux de données Breakfast et COIN relatifs aux activités procédurales. Le code est disponible publiquement à l’adresse suivante : https://github.com/md-mohaiminul/ViS4mer.

Classification de longs extraits vidéo avec des modèles vidéo à espace d'état | Articles de recherche récents | HyperAI