Apprentissage non supervisé de classes d'actions avec plongement temporel continu

La tâche de détection et de segmentation temporelle des actions dans des vidéos non coupées a récemment suscité une attention croissante. Un problème dans ce contexte découle de la nécessité de définir et d'étiqueter les frontières des actions pour créer des annotations d'entraînement, ce qui est très coûteux en temps et en ressources. Pour répondre à cette problématique, nous proposons une approche non supervisée pour l'apprentissage des classes d'actions à partir de séquences vidéo non coupées. À cette fin, nous utilisons un plongement temporel continu des caractéristiques par image pour tirer parti de la nature séquentielle des activités. Sur la base de l'espace latent créé par le plongement, nous identifions des clusters de segments temporels à travers toutes les vidéos qui correspondent à des classes d'actions sémantiquement significatives. L'approche est évaluée sur trois jeux de données difficiles, à savoir le jeu de données Breakfast, YouTube Instructions et le jeu de données 50Salads. Alors que les travaux précédents supposaient que les vidéos contenaient la même activité de haut niveau, nous montrons également que l'approche proposée peut être appliquée à un cadre plus général où le contenu des vidéos est inconnu.