HyperAIHyperAI

Command Palette

Search for a command to run...

Réexaminer l'architecture Faster R-CNN pour la localisation temporelle d'actions

Yu-Wei Chao; Sudheendra Vijayanarasimhan; Bryan Seybold; David A. Ross; Jia Deng; Rahul Sukthankar

Résumé

Nous proposons TAL-Net, une approche améliorée de localisation temporelle d'actions dans les vidéos, inspirée par le cadre de détection d'objets Faster R-CNN. TAL-Net aborde trois lacunes clés des méthodes existantes : (1) nous améliorons l'alignement du champ récepteur en utilisant une architecture multi-échelle capable de gérer des variations extrêmes dans la durée des actions ; (2) nous exploitons mieux le contexte temporel des actions pour la génération de propositions et la classification des actions en étendant adéquatement les champs récepteurs ; et (3) nous considérons explicitement la fusion de caractéristiques multi-flux et démontrons que la fusion tardive du mouvement est importante. Nous obtenons des performances de pointe pour la proposition et la localisation d'actions sur le banc d'essai de détection THUMOS'14 et des performances compétitives sur le défi ActivityNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réexaminer l'architecture Faster R-CNN pour la localisation temporelle d'actions | Articles | HyperAI