HyperAIHyperAI

Command Palette

Search for a command to run...

Représentations tensorielles pour la reconnaissance d'actions

Piotr Koniusz Lei Wang Anoop Cherian

Résumé

Les actions humaines dans les séquences vidéo sont caractérisées par l’interplay complexe entre les caractéristiques spatiales et leurs dynamiques temporelles. Dans cet article, nous proposons de nouvelles représentations tensorielles permettant de capturer de manière compacte ces relations d’ordre supérieur entre les caractéristiques visuelles, dans le cadre de la reconnaissance d’actions. Nous introduisons deux représentations basées sur les tenseurs : (i) le noyau de compatibilité de séquence (SCK) et (ii) le noyau de compatibilité dynamique (DCK). Le SCK exploite les corrélations spatio-temporelles entre les caractéristiques, tandis que le DCK modélise explicitement la dynamique de l’action au sein d’une séquence. Nous explorons également une généralisation du SCK, appelée SCK(+), qui opère sur des sous-séquences afin de capturer l’interplay local-global des corrélations, pouvant intégrer des entrées multimodales, telles que les squelettes constitués de joints corporels 3D et les scores de classification par image issus de modèles d’apprentissage profond entraînés sur des vidéos. Nous introduisons une linéarisation de ces noyaux, conduisant à des descripteurs compacts et rapides. Des expériences sont menées sur (i) des séquences d’actions basées sur des squelettes 3D, (ii) des séquences vidéo à très fine-grain, et (iii) des vidéos standards non fines. Étant donné que nos représentations finales sont des tenseurs capturant des relations d’ordre supérieur entre les caractéristiques, elles sont liées aux co-occurrences pour une reconnaissance robuste à très fine-grain. En utilisant des tenseurs d’ordre supérieur ainsi que ce qu’on appelle la normalisation par puissance des valeurs propres (EPN), longtemps supposée capable de détecter spectralement les occurrences d’ordre supérieur, nous parvenons ainsi à identifier des relations fines entre caractéristiques, au-delà d’un simple comptage dans les séquences d’actions. Nous démontrons qu’un tenseur d’ordre r, construit à partir de caractéristiques de dimension Z, couplé à l’EPN, détecte effectivement si au moins une occurrence d’ordre supérieur est « projetée » dans l’un des sous-espaces binom(Z,r) de dimension r représentés par le tenseur, formant ainsi une métrique de normalisation par puissance tensorielle dotée de binom(Z*,r) tels « détecteurs ».


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp