Auto-supervision de la reconnaissance d’actions par des descripteurs de moment statistique et de sous-espace

Dans cet article, nous nous appuyons sur le concept d'auto-supervision en prenant des images RGB comme entrée pour apprendre à prédire à la fois des concepts d'action et des descripteurs auxiliaires, par exemple des descripteurs d'objets. Les flux dits de "hallucination" sont formés pour prédire ces indices auxiliaires, qui sont ensuite simultanément intégrés aux couches de classification et hallucinés lors de l'étape de test pour aider le réseau. Nous concevons et hallucinons deux descripteurs : le premier utilise quatre détecteurs d'objets populaires appliqués aux vidéos d'entraînement, tandis que le second utilise des détecteurs de saillance au niveau des images et des vidéos. Le premier descripteur encode les scores de prédiction de classe selon les détecteurs et ImageNet, les scores de confiance, ainsi que les positions spatiales des boîtes englobantes et les index des images pour capturer la distribution spatio-temporelle des caractéristiques par vidéo. L'autre descripteur encode les distributions spatio-angulaires du gradient et les motifs d'intensité des cartes de saillance.Inspiration tirée de la fonction caractéristique de la distribution de probabilité, nous capturons quatre moments statistiques sur les descripteurs intermédiaires mentionnés ci-dessus. Comme le nombre de coefficients dans la moyenne, la covariance, la coskewness (coasymétrie) et la cokurtosis (coexcentricité) augmente linéairement, quadratiquement, cubiquement et quartiquement en fonction de la dimension des vecteurs de caractéristiques, nous décrivons la matrice de covariance par ses n' premiers vecteurs propres (appelés sous-espace) et nous capturons l'asymétrie/excentricité plutôt que la coasymétrie/coexcentricité plus coûteuses en calcul. Nous obtenons l'état de l'art sur cinq jeux de données populaires tels que Charades et EPIC-Kitchens.