HyperAIHyperAI
il y a 2 mois

TURN TAP : Réseau de régression d'unités temporelles pour les propositions d'actions temporelles

Jiyang Gao; Zhenheng Yang; Chen Sun; Kan Chen; Ram Nevatia
TURN TAP : Réseau de régression d'unités temporelles pour les propositions d'actions temporelles
Résumé

La génération de propositions d'actions temporelles (TAP) est un problème important, car l'extraction rapide et précise de segments sémantiquement importants (par exemple, des actions humaines) à partir de vidéos non coupées constitue une étape cruciale pour l'analyse à grande échelle des vidéos. Nous proposons un nouveau modèle appelé Réseau de Régression Temporelle par Unités (TURN). Le TURN présente deux aspects remarquables : (1) il prédit conjointement les propositions d'actions et affine les limites temporelles par régression de coordonnées temporelles ; (2) le calcul rapide est rendu possible grâce au réutilisation des caractéristiques unitaires : une vidéo longue et non coupée est décomposée en unités vidéo, qui sont réutilisées comme éléments de base pour la construction des propositions temporelles. Le TURN surpasse largement les méthodes de pointe en termes de rappel moyen (AR) sur les jeux de données THUMOS-14 et ActivityNet, et atteint plus de 880 images par seconde (FPS) sur une carte graphique TITAN X. Nous appliquons également le TURN comme étape de génération de propositions dans les pipelines existants de localisation d'actions temporelles, où il dépasse les performances actuelles de pointe sur THUMOS-14 et ActivityNet.

TURN TAP : Réseau de régression d'unités temporelles pour les propositions d'actions temporelles | Articles de recherche récents | HyperAI