Transport optimal non équilibré temporalement cohérent pour la segmentation d'actions non supervisée

Nous proposons une nouvelle approche pour la tâche de segmentation d'actions dans des vidéos longues et non rognées, basée sur la résolution d'un problème de transport optimal. En intégrant un a priori de cohérence temporelle dans un problème de Gromov-Wasserstein, nous sommes capables de décoder une segmentation temporellement cohérente à partir d'une matrice de coût d'affinité/matching bruyante entre les images vidéo et les classes d'actions. Contrairement aux approches précédentes, notre méthode ne nécessite pas de connaître l'ordre des actions dans une vidéo pour atteindre la cohérence temporelle. De plus, notre problème Gromov-Wasserstein (fusionné) résultant peut être résolu efficacement sur des GPU en utilisant quelques itérations de descente miroir projetée. Nous démontrons l'efficacité de notre méthode dans un cadre d'apprentissage non supervisé, où elle est utilisée pour générer des pseudo-étiquettes pour l'auto-entraînement. Nous évaluons notre approche de segmentation et notre pipeline d'apprentissage non supervisé sur les jeux de données Breakfast, 50-Salads, YouTube Instructions et Desktop Assembly, obtenant des résultats à l'état de l'art pour la tâche de segmentation d'actions dans les vidéos non supervisées.