Pooling tensor d'ordre supérieur avec attention pour la reconnaissance d'actions

Nous visons à capturer les statistiques d'ordre supérieur des vecteurs de caractéristiques formés par un réseau de neurones, et proposons des méthodes d'agrégation d'ordre deux et supérieur, intégrées de manière end-to-end, afin de construire un descripteur tensoriel. Les descripteurs tensoriels nécessitent une mesure de similarité robuste en raison du faible nombre de vecteurs agrégés et du phénomène de burstiness, où une caractéristique donnée apparaît plus ou moins fréquemment qu'attendu statistiquement. Le processus de diffusion de chaleur (HDP) sur un laplacien de graphe est étroitement lié à la normalisation par puissance des valeurs propres (EPN) de la matrice de covariance ou d'autocorrélation, dont l'inverse forme un laplacien de graphe cyclique. Nous montrons que le HDP et l'EPN jouent un rôle identique, à savoir amplifier ou atténuer l'amplitude du spectre propre, afin de prévenir le phénomène de burstiness. Nous équipons les tenseurs d'ordre supérieur de l'EPN, qui agit comme un détecteur spectral des occurrences d'ordre supérieur, afin de contrer la burstiness. Nous démontrons également que, pour un tenseur d'ordre r construit à partir de descripteurs de caractéristiques à d dimensions, ce détecteur fournit la probabilité qu'au moins une occurrence d'ordre supérieur soit « projetée » dans l'un des binom(d,r) sous-espaces représentés par le tenseur ; cela permet ainsi de définir une métrique de normalisation par puissance tensorielle munie de binom(d,r) tels « détecteurs ». En termes de contributions expérimentales, nous appliquons plusieurs variantes d'agrégation d'ordre deux et supérieur à la reconnaissance d'actions, proposons des comparaisons auparavant non présentées de ces variantes, et obtenons des résultats de pointe sur les bases HMDB-51, YUP++ et MPII Cooking Activities.