Temporal Dynamic Graph LSTM pour la Détection d'Objets Vidéo Actionnée

Dans cet article, nous examinons un cadre de détection d'objets faiblement supervisé. La plupart des cadres existants se concentrent sur l'utilisation d'images statiques pour apprendre des détecteurs d'objets. Cependant, ces détecteurs échouent souvent à généraliser aux vidéos en raison du décalage de domaine existant. Par conséquent, nous explorons l'apprentissage direct de ces détecteurs à partir de vidéos ennuyeuses d'activités quotidiennes. Au lieu d'utiliser des boîtes englobantes, nous étudions l'utilisation de descriptions d'actions comme supervision, car elles sont relativement faciles à recueillir. Un problème courant est que les objets d'intérêt qui ne sont pas impliqués dans les actions humaines sont souvent absents dans les descriptions globales des actions, connues sous le nom de « labels manquants ». Pour résoudre ce problème, nous proposons un nouveau réseau Long Short-Term Memory (LSTM) temporel dynamique basé sur un graphe (TD-Graph LSTM). Le TD-Graph LSTM permet une raisonnement temporel global en construisant un graphe dynamique basé sur les corrélations temporelles des propositions d'objets et couvrant l'ensemble de la vidéo. Ainsi, le problème des labels manquants pour chaque image individuelle peut être considérablement atténué par le transfert de connaissances entre les propositions d'objets corrélées dans toute la vidéo. Des évaluations approfondies sur un grand ensemble de données d'actions quotidiennes (à savoir, Charades) démontrent la supériorité de notre méthode proposée. Nous avons également publié des annotations de boîtes englobantes pour plus de 5 000 images dans Charades. Nous croyons que ces données annotées peuvent également bénéficier à d'autres recherches sur la reconnaissance d'objets basée sur les vidéos à l'avenir.