il y a 2 mois

Réseaux récurrents FASTER pour une classification vidéo efficace

Linchao Zhu; Laura Sevilla-Lara; Du Tran; Matt Feiszli; Yi Yang; Heng Wang

Résumé

Les méthodes de classification vidéo typiques divisent souvent une vidéo en courts extraits, effectuent des inférences sur chaque extrait de manière indépendante, puis agrègent les prédictions au niveau des extraits pour générer les résultats au niveau de la vidéo. Cependant, le traitement d'extraits visuellement similaires de manière indépendante ignore la structure temporelle de la séquence vidéo et augmente le coût computationnel lors de l'inférence. Dans cet article, nous proposons un nouveau cadre nommé FASTER, c'est-à-dire l'agrégation de caractéristiques pour la redondance spatio-temporelle (Feature Aggregation for Spatio-TEmporal Redundancy). FASTER vise à exploiter la redondance entre les extraits voisins et à réduire le coût computationnel en apprenant à agréger les prédictions provenant de modèles de complexités différentes. Le cadre FASTER peut intégrer des représentations de haute qualité issues de modèles coûteux pour capturer des informations subtiles sur le mouvement et des représentations légères issues de modèles peu coûteux pour couvrir les changements de scène dans la vidéo. Un nouveau réseau récurrent (FAST-GRU) a été conçu pour agréger ce mélange de différentes représentations. Comparativement aux approches existantes, FASTER peut réduire les opérations flottantes (FLOPs) par plus de 10 fois tout en maintenant une précision d'état de l'art sur des jeux de données populaires tels que Kinetics, UCF-101 et HMDB-51.