HyperAIHyperAI
il y a 17 jours

Reconnaissance d'actions à peu de exemples avec une attention invariante par permutation

Hongguang Zhang, Li Zhang, Xiaojuan Qi, Hongdong Li, Philip H. S. Torr, Piotr Koniusz
Reconnaissance d'actions à peu de exemples avec une attention invariante par permutation
Résumé

De nombreux modèles d’apprentissage peu supervisé se concentrent sur la reconnaissance d’images. En revanche, nous abordons une tâche exigeante : la reconnaissance d’actions à partir de vidéos avec peu d’exemples. Nous exploitons un encodeur C3D pour des blocs spatio-temporels vidéo afin de capturer des motifs d’actions à courte portée. Ces blocs encodés sont agrégés par un pooling invariant à la permutation, ce qui rend notre approche robuste aux variations de longueur d’action ainsi qu’aux dépendances temporelles à longue portée, dont les motifs sont peu susceptibles de se répéter même dans des extraits de la même classe. Ensuite, les représentations agrégées sont combinées en des descripteurs de relation simples, qui codent les extraits dits « requête » et « support ». Enfin, ces descripteurs de relation sont envoyés à un comparateur dont l’objectif est l’apprentissage de similarité entre les extraits requête et support. De manière cruciale, afin de réajuster les contributions des blocs lors du pooling, nous utilisons des modules d’attention spatiale et temporelle ainsi que l’apprentissage auto-supervisé. Dans les extraits naturels (de la même classe), une dérive de distribution temporelle existe — les positions des zones temporelles discriminantes (hotspots) d’action varient. Par conséquent, nous permutons les blocs d’un extrait et alignons les régions d’attention résultantes avec les régions d’attention permutées correspondantes d’un extrait non permuté, afin d’entraîner le mécanisme d’attention de manière invariante aux permutations de blocs (et donc aux hotspots à long terme). Notre méthode surpasse l’état de l’art sur les jeux de données HMDB51, UCF101 et miniMIT.

Reconnaissance d'actions à peu de exemples avec une attention invariante par permutation | Articles de recherche récents | HyperAI