HyperAIHyperAI
il y a 16 jours

Vous ne regardez qu'une fois : une architecture CNN unifiée pour la localisation en temps réel d'actions spatio-temporelles

Okan Köpüklü, Xiangyu Wei, Gerhard Rigoll
Vous ne regardez qu'une fois : une architecture CNN unifiée pour la localisation en temps réel d'actions spatio-temporelles
Résumé

La localisation d’actions spatio-temporelle nécessite l’intégration de deux sources d’information dans l’architecture conçue : (1) les informations temporelles provenant des cadres précédents et (2) les informations spatiales provenant du cadre clé. Les approches actuelles de pointe extraient généralement ces informations à l’aide de réseaux distincts, puis utilisent un mécanisme supplémentaire de fusion pour obtenir les détections. Dans ce travail, nous présentons YOWO, une architecture CNN unifiée pour la localisation d’actions spatio-temporelle en temps réel dans les flux vidéo. YOWO est une architecture à une seule étape comprenant deux branches permettant d’extraire simultanément les informations temporelles et spatiales, et de prédire directement les boîtes englobantes et les probabilités d’actions à partir de segments vidéo en une seule évaluation. Étant donné que l’architecture entière est unifiée, elle peut être optimisée de bout en bout. L’architecture YOWO est particulièrement rapide, atteignant 34 images par seconde sur des segments vidéo de 16 cadres et 62 images par seconde sur des segments de 8 cadres, ce qui en fait actuellement l’architecture la plus rapide parmi les états de l’art pour la tâche de localisation d’actions spatio-temporelle. De manière remarquable, YOWO dépasse les résultats précédents de l’état de l’art sur les jeux de données J-HMDB-21 et UCF101-24, avec une amélioration impressionnante de respectivement ~3 % et ~12 %. En outre, YOWO est la première et unique architecture à une seule étape à obtenir des résultats compétitifs sur le jeu de données AVA. Nous mettons à disposition publiquement notre code ainsi que nos modèles pré-entraînés.

Vous ne regardez qu'une fois : une architecture CNN unifiée pour la localisation en temps réel d'actions spatio-temporelles | Articles de recherche récents | HyperAI