il y a 2 mois

Champs Temporels Asynchrones pour la Reconnaissance d'Actions

Gunnar A. Sigurdsson; Santosh Divvala; Ali Farhadi; Abhinav Gupta

Résumé

Les actions ne sont pas seulement des mouvements et des trajectoires : nous cuisinons pour manger et nous tenons une tasse pour en boire. Une compréhension approfondie des vidéos nécessite de dépasser la modélisation de l'apparence et exige une réflexion sur la séquence d'activités, ainsi que sur les constructions de niveau supérieur telles que les intentions. Mais comment modéliser et raisonner à ce sujet ? Nous proposons un modèle de CRF temporel entièrement connecté pour raisonner sur divers aspects des activités, y compris les objets, les actions et les intentions, où les potentiels sont prédits par un réseau profond. L'entraînement de bout en bout de ces modèles structurés est une entreprise difficile : pour l'inférence et l'apprentissage, il faut construire des mini-lots composés de vidéos complètes, conduisant à des mini-lots ne contenant que quelques vidéos. Cela entraîne une forte corrélation entre les points de données, provoquant le dysfonctionnement de l'algorithme de rétropropagation. Pour relever ce défi, nous présentons une méthode d'inférence variationnelle asynchrone qui permet un entraînement efficace de bout en bout. Notre méthode atteint un mAP de classification de 22,4 % sur le benchmark Charades, surpassant l'état de l'art (17,2 % mAP), et offre des gains équivalents dans la tâche de localisation temporelle.