HyperAIHyperAI
il y a 2 mois

Réexaminer l'architecture Faster R-CNN pour la localisation temporelle d'actions

Yu-Wei Chao; Sudheendra Vijayanarasimhan; Bryan Seybold; David A. Ross; Jia Deng; Rahul Sukthankar
Réexaminer l'architecture Faster R-CNN pour la localisation temporelle d'actions
Résumé

Nous proposons TAL-Net, une approche améliorée de localisation temporelle d'actions dans les vidéos, inspirée par le cadre de détection d'objets Faster R-CNN. TAL-Net aborde trois lacunes clés des méthodes existantes : (1) nous améliorons l'alignement du champ récepteur en utilisant une architecture multi-échelle capable de gérer des variations extrêmes dans la durée des actions ; (2) nous exploitons mieux le contexte temporel des actions pour la génération de propositions et la classification des actions en étendant adéquatement les champs récepteurs ; et (3) nous considérons explicitement la fusion de caractéristiques multi-flux et démontrons que la fusion tardive du mouvement est importante. Nous obtenons des performances de pointe pour la proposition et la localisation d'actions sur le banc d'essai de détection THUMOS'14 et des performances compétitives sur le défi ActivityNet.

Réexaminer l'architecture Faster R-CNN pour la localisation temporelle d'actions | Articles de recherche récents | HyperAI