Quantification Vectorielle Hiérarchique pour la Segmentation Non Supervisée des Actions

Dans cette étude, nous abordons le problème de la segmentation temporelle d'actions non supervisée, qui consiste à découper un ensemble de vidéos longues et non tronquées en segments sémantiquement significatifs et cohérents entre les vidéos. Bien que les approches récentes combinent l'apprentissage de représentations et le regroupement en une seule étape pour cette tâche, elles ne parviennent pas à gérer les grandes variations au sein des segments temporels de la même classe. Pour remédier à cette limitation, nous proposons une nouvelle méthode appelée Quantification Vectorielle Hiérarchique (QVH), composée de deux modules de quantification vectorielle successifs. Cela conduit à un regroupement hiérarchique où les sous-groupes supplémentaires couvrent les variations au sein d'un groupe. Nous montrons que notre approche capture la distribution des longueurs de segments bien mieux que l'état de l'art. À cet effet, nous introduisons une nouvelle métrique basée sur la distance de Jensen-Shannon (JSD) pour la segmentation temporelle d'actions non supervisée. Nous évaluons notre approche sur trois jeux de données publics, à savoir Breakfast, YouTube Instructional et IKEA ASM. Notre méthode surpassent l'état de l'art en termes de score F1, rappel et JSD.