Segmentation d'actions prenant en compte les permutations via un alignement non supervisé de frame à segment

Ce document présente un cadre de segmentation d'activités temporelles basé sur des transformateurs et non supervisé, qui exploite non seulement les indices au niveau des images mais aussi ceux au niveau des segments. Cela contraste avec les méthodes précédentes qui s'appuient souvent uniquement sur les informations au niveau des images. Notre approche commence par un module de prédiction au niveau des images qui estime les classes d'actions image par image grâce à un encodeur de transformateur. Ce module de prédiction au niveau des images est formé de manière non supervisée via le transport optimal temporel. Pour exploiter les informations au niveau des segments, nous utilisons un module de prédiction au niveau des segments et un module d'alignement image-segment. Le premier comprend un décodeur de transformateur pour estimer les transcriptions vidéo, tandis que le second associe les caractéristiques au niveau des images aux caractéristiques au niveau des segments, produisant ainsi des résultats de segmentation sensibles aux permutations. De plus, inspirés par le transport optimal temporel, nous introduisons des étiquettes pseudo-simples mais efficaces pour la formation non supervisée des modules mentionnés ci-dessus. Nos expériences sur quatre ensembles de données publics, à savoir 50 Salads, YouTube Instructions, Breakfast et Desktop Assembly (Montage de bureau), montrent que notre approche atteint une performance comparable ou supérieure à celle des méthodes précédentes dans la segmentation d'activités temporelles non supervisée.