HyperAIHyperAI
il y a 2 mois

Réseaux d'agrégation de caractéristiques hiérarchiques pour la reconnaissance d'actions vidéo

Swathikiran Sudhakaran; Sergio Escalera; Oswald Lanz
Réseaux d'agrégation de caractéristiques hiérarchiques pour la reconnaissance d'actions vidéo
Résumé

La plupart des méthodes de reconnaissance d'actions se basent sur a) une agrégation tardive des caractéristiques de niveau image issues de réseaux de neurones convolutifs (CNN) en utilisant le poolage moyen, le poolage maximal ou les réseaux de neurones récurrents (RNN), entre autres, ou b) une agrégation spatio-temporelle par l'intermédiaire de convolutions 3D. La première approche suppose l'indépendance entre les caractéristiques d'image jusqu'à un certain niveau d'abstraction, puis effectue une agrégation à un niveau plus élevé, tandis que la seconde extrait des caractéristiques spatio-temporelles à partir de groupes d'images comme une fusion précoce. Dans cet article, nous explorons l'espace intermédiaire entre ces deux approches en permettant aux branches de caractéristiques adjacentes d'interagir lorsqu'elles évoluent vers une représentation de niveau supérieur. Cette interaction se produit entre la différence et la moyenne des caractéristiques à chaque niveau hiérarchique et présente une structure convolutive qui apprend à sélectionner le mode approprié localement, contrairement aux travaux précédents qui imposaient l'un des modes globalement (par exemple, la différence des caractéristiques) par choix de conception. Nous imposons également que cette interaction soit conservatrice, c'est-à-dire qu'une soustraction locale de caractéristiques dans une branche est compensée par une addition dans une autre branche, afin que le flux total de caractéristiques soit préservé. Nous évaluons les performances de notre proposition sur plusieurs modèles existants, notamment TSN, TRN et ECO, pour démontrer sa flexibilité et son efficacité dans l'amélioration des performances de reconnaissance d'actions.

Réseaux d'agrégation de caractéristiques hiérarchiques pour la reconnaissance d'actions vidéo | Articles de recherche récents | HyperAI