HyperAIHyperAI
il y a 2 mois

CDC : Réseaux Convolutifs-Déconvolutifs pour la Localisation Précise des Actions Temporelles dans les Vidéos Non Taillées

Zheng Shou; Jonathan Chan; Alireza Zareian; Kazuyuki Miyazawa; Shih-Fu Chang
CDC : Réseaux Convolutifs-Déconvolutifs pour la Localisation Précise des Actions Temporelles dans les Vidéos Non Taillées
Résumé

La localisation temporelle des actions est un problème important mais difficile. Étant donné une vidéo longue et non tronquée composée de plusieurs instances d'actions et de contenus de fond complexes, il est nécessaire non seulement de reconnaître leurs catégories d'actions, mais aussi de localiser le temps de début et de fin de chaque instance. De nombreux systèmes d'avant-garde utilisent des classifieurs au niveau des segments pour sélectionner et classer les segments proposés aux frontières prédéterminées. Cependant, un modèle souhaitable devrait aller au-delà du niveau des segments et faire des prédictions denses à une granularité temporelle fine pour déterminer les frontières temporelles précises. À cette fin, nous concevons un nouveau réseau Convolutionnel-Déconvolutionnel (CDC) qui place des filtres CDC sur des ConvNets 3D, qui ont été montrés comme étant efficaces pour abstraire les sémantiques des actions mais réduisent la durée temporelle des données d'entrée. Le filtre CDC proposé effectue simultanément les opérations de suréchantillonnage temporel et de sous-échantillonnage spatial nécessaires pour prédire les actions à une granularité au niveau des images. Il se distingue par la modélisation conjointe des sémantiques des actions dans l'espace-temps et des dynamiques temporelles à grain fin. Nous formons le réseau CDC de manière efficace en bout à bout. Notre modèle ne seulement obtient des performances supérieures dans la détection des actions dans chaque image, mais améliore également considérablement la précision de la localisation des frontières temporelles. Enfin, le réseau CDC montre une très grande efficacité avec la capacité de traiter 500 images par seconde sur un serveur GPU unique. Nous mettrons bientôt à jour la version finale pour publication et publierons les codes sources en ligne prochainement.

CDC : Réseaux Convolutifs-Déconvolutifs pour la Localisation Précise des Actions Temporelles dans les Vidéos Non Taillées | Articles de recherche récents | HyperAI