il y a 2 mois
Banques de Caractéristiques à Long Terme pour une Compréhension Détaillée des Vidéos
Wu, Chao-Yuan ; Feichtenhofer, Christoph ; Fan, Haoqi ; He, Kaiming ; Krähenbühl, Philipp ; Girshick, Ross

Résumé
Pour comprendre le monde, les humains ont constamment besoin de relier le présent au passé et de contextualiser les événements. Dans cet article, nous permettons aux modèles vidéo existants de faire de même. Nous proposons une banque de caractéristiques à long terme --- des informations d'appui extraites sur l'ensemble de la durée d'une vidéo --- pour améliorer les modèles vidéo de pointe qui, sans cela, ne verraient que des extraits courts de 2 à 5 secondes. Nos expériences montrent que l'augmentation des réseaux de neurones à convolutions 3D avec une banque de caractéristiques à long terme produit des résultats de pointe sur trois ensembles de données vidéo difficiles : AVA, EPIC-Kitchens et Charades.