Apprentissage non supervisé de la représentation du mouvement avec des autoencodeurs à capsules

Nous proposons l'Autoencodeur de Capsules de Mouvement (MCAE), qui aborde un défi majeur dans l'apprentissage non supervisé des représentations de mouvement : l'invariance aux transformations. Le MCAE modélise le mouvement selon une hiérarchie à deux niveaux. Au niveau inférieur, un signal de mouvement spatio-temporel est divisé en courts extraits locaux et sémantiquement agnostiques. Au niveau supérieur, ces extraits sont agrégés pour former des segments complets et sémantiquement conscients. Pour les deux niveaux, nous représentons le mouvement par un ensemble de modèles d'invariance aux transformations appris et les transformations géométriques correspondantes en utilisant des autoencodeurs de capsules d'un nouveau design. Cela permet une encodage robuste et efficace des changements de point de vue. Le MCAE est évalué sur un nouveau jeu de données de mouvement appelé Trajectory20 ainsi que sur divers jeux de données réels basés sur des squelettes humains. Il convient de noter qu'il obtient des résultats supérieurs aux méthodes de base sur Trajectory20 avec considérablement moins de paramètres et une performance à l'état de l'art pour la tâche de reconnaissance d'actions basée sur des squelettes non supervisée.