HyperAIHyperAI
il y a 2 mois

Représentations latentes conditionnées en profondeur pour la reconnaissance d'actions

Singh, Akash ; De Schepper, Tom ; Mets, Kevin ; Hellinckx, Peter ; Oramas, Jose ; Latre, Steven
Représentations latentes conditionnées en profondeur pour la reconnaissance d'actions
Résumé

Ces dernières années, la reconnaissance d'actions vidéo multi-étiquettes et multi-classes a connu une popularité croissante. Bien que le raisonnement sur des actions atomiques liées temporellement soit banal pour les espèces intelligentes, les réseaux de neurones artificiels (RNA) standards peinent encore à les classifier. Dans le monde réel, les actions atomiques se connectent souvent temporellement pour former des actions composites plus complexes. Le défi consiste à reconnaître des actions composites de durées variables tout en présence d'autres actions composites ou atomiques distinctes en arrière-plan. En nous inspirant du succès des réseaux relationnels, nous proposons des méthodes qui apprennent à raisonner sur le concept sémantique des objets et des actions. Nous montrons empiriquement comment les RNA bénéficient du pré-entraînement, des biais inductifs relationnels et des représentations latentes basées sur des ensembles non ordonnés. Dans cet article, nous présentons SCI3D (Deep Set Conditioned I3D), un réseau relationnel à deux flux qui utilise une représentation latente de l'état et une représentation visuelle pour raisonner sur les événements et les actions. Ces méthodes apprennent à raisonner sur des actions liées temporellement afin d'identifier toutes celles présentes dans la vidéo. La méthode proposée réalise une amélioration d'environ 1,49 % mAP dans la reconnaissance d'actions atomiques et 17,57 % mAP dans la reconnaissance d'actions composites, par rapport à une ligne de base I3D-NL, sur l'ensemble de données CATER.

Représentations latentes conditionnées en profondeur pour la reconnaissance d'actions | Articles de recherche récents | HyperAI