HyperAIHyperAI
il y a 2 mois

Localisation d'actions temporelles dans des vidéos non coupées via des CNNs multi-étapes

Zheng Shou; Dongang Wang; Shih-Fu Chang
Localisation d'actions temporelles dans des vidéos non coupées via des CNNs multi-étapes
Résumé

Nous abordons la localisation temporelle des actions dans des vidéos longues non rognées. Cette question est importante car les vidéos utilisées dans les applications réelles sont généralement non contraintes et contiennent plusieurs instances d'actions ainsi que du contenu vidéo de scènes d'arrière-plan ou d'autres activités. Pour résoudre ce problème complexe, nous exploitons l'efficacité des réseaux profonds en localisation temporelle des actions à travers trois ConvNets 3D basés sur des segments : (1) un réseau de proposition identifie les segments candidats dans une vidéo longue qui pourraient contenir des actions ; (2) un réseau de classification apprend un modèle de classification d'actions one-vs-all pour servir d'initialisation au réseau de localisation ; et (3) un réseau de localisation affine le modèle appris par le réseau de classification afin de localiser chaque instance d'action. Nous proposons une nouvelle fonction de perte pour le réseau de localisation qui prend explicitement en compte le chevauchement temporel, permettant ainsi d'atteindre une précision élevée en localisation temporelle. Seuls le réseau de proposition et le réseau de localisation sont utilisés lors de la prédiction. Sur deux benchmarks à grande échelle, notre approche obtient des performances nettement supérieures par rapport aux autres systèmes de pointe : le mAP passe de 1,7 % à 7,4 % sur MEXaction2 et augmente de 15,0 % à 19,0 % sur THUMOS 2014, lorsque le seuil de chevauchement pour l'évaluation est fixé à 0,5.

Localisation d'actions temporelles dans des vidéos non coupées via des CNNs multi-étapes | Articles de recherche récents | HyperAI