HyperAIHyperAI
il y a 2 mois

ECO : Réseau de convolution efficace pour la compréhension en ligne des vidéos

Mohammadreza Zolfaghari; Kamaljeet Singh; Thomas Brox
ECO : Réseau de convolution efficace pour la compréhension en ligne des vidéos
Résumé

L'état de l'art en matière de compréhension vidéo souffre de deux problèmes : (1) La majeure partie du raisonnement est effectuée localement dans la vidéo, ce qui fait qu'il manque des relations importantes entre les actions s'étendant sur plusieurs secondes. (2) Bien qu'il existe des méthodes locales avec un traitement rapide par image, le traitement de la vidéo complète n'est pas efficace et entrave une recherche vidéo rapide ou une classification en ligne d'activités à long terme. Dans cet article, nous présentons une architecture de réseau qui prend en compte le contenu à long terme et permet en même temps un traitement rapide par vidéo. Cette architecture repose sur la fusion du contenu à long terme directement au sein du réseau plutôt que dans une fusion postérieure (post-hoc). Associée à une stratégie d'échantillonnage exploitant le fait que les images voisines sont largement redondantes, cette méthode offre une classification d'action et une légendage vidéo de haute qualité jusqu'à 230 vidéos par seconde, où chaque vidéo peut contenir quelques centaines d'images. Notre approche atteint des performances compétitives sur tous les jeux de données tout en étant 10 à 80 fois plus rapide que les méthodes de pointe actuelles.