Action Shuffle Alternating Learning pour la Segmentation Non Supervisée des Actions

Ce papier aborde le problème de la segmentation d'actions non supervisée. Les travaux antérieurs capturaient la structure temporelle au niveau des images dans les vidéos par un plongement de caractéristiques qui encode les positions temporelles des images dans la vidéo. Nous améliorons ces travaux précédents en proposant une nouvelle méthode d'apprentissage auto-supervisé (SSL) pour un plongement de caractéristiques qui prend en compte à la fois la structure au niveau des images et celle au niveau des actions dans les vidéos. Notre SSL entraîne un RNN à reconnaître des séquences d'actions positives et négatives, et la couche cachée du RNN est utilisée comme notre nouveau plongement de caractéristiques au niveau des actions. Les séquences positives et négatives sont composées de segments d'actions échantillonnés à partir de vidéos, où dans les premières, les segments d'actions respectent leur ordre temporel dans la vidéo, tandis que dans les secondes, ils sont mélangés. Comme aucune supervision des actions n'est disponible et que notre SSL nécessite l'accès à des segments d'actions, nous spécifions un modèle de Markov caché (HMM) qui modélise explicitement les durées des actions, puis nous inférons une segmentation d'actions MAP avec l'algorithme de Viterbi. La segmentation d'actions résultante est utilisée comme pseudo-vérité terrain pour estimer notre plongement de caractéristiques au niveau des actions et mettre à jour l'HMM. Nous alternons ces étapes dans le cadre du Generalized EM, ce qui garantit la convergence. Notre évaluation sur les jeux de données Breakfast, YouTube Instructions et 50Salads donne des résultats supérieurs à ceux de l'état de l'art.