Command Palette
Search for a command to run...
Représentations latentes conditionnées en profondeur pour la reconnaissance d'actions
Représentations latentes conditionnées en profondeur pour la reconnaissance d'actions
Akash Singh Tom De Schepper Kevin Mets Peter Hellinckx José Oramas Steven Latré
Résumé
Ces dernières années, la reconnaissance d'actions vidéo multi-étiquettes et multi-classes a connu une popularité croissante. Bien que le raisonnement sur des actions atomiques liées temporellement soit banal pour les espèces intelligentes, les réseaux de neurones artificiels (RNA) standards peinent encore à les classifier. Dans le monde réel, les actions atomiques se connectent souvent temporellement pour former des actions composites plus complexes. Le défi consiste à reconnaître des actions composites de durées variables tout en présence d'autres actions composites ou atomiques distinctes en arrière-plan. En nous inspirant du succès des réseaux relationnels, nous proposons des méthodes qui apprennent à raisonner sur le concept sémantique des objets et des actions. Nous montrons empiriquement comment les RNA bénéficient du pré-entraînement, des biais inductifs relationnels et des représentations latentes basées sur des ensembles non ordonnés. Dans cet article, nous présentons SCI3D (Deep Set Conditioned I3D), un réseau relationnel à deux flux qui utilise une représentation latente de l'état et une représentation visuelle pour raisonner sur les événements et les actions. Ces méthodes apprennent à raisonner sur des actions liées temporellement afin d'identifier toutes celles présentes dans la vidéo. La méthode proposée réalise une amélioration d'environ 1,49 % mAP dans la reconnaissance d'actions atomiques et 17,57 % mAP dans la reconnaissance d'actions composites, par rapport à une ligne de base I3D-NL, sur l'ensemble de données CATER.