Segmentation temporelle d’actions unifiée entièrement supervisée et supervisée par horodatage via une traduction séquence à séquence

Cet article présente un cadre unifié pour la segmentation d’actions vidéo via une traduction séquence à séquence (seq2seq) dans un cadre entièrement supervisé par des étiquettes de cadre (frame-level) et par des timestamps. Contrairement aux méthodes d’actualité basées sur la prédiction au niveau des trames, nous considérons la segmentation d’actions comme une tâche de traduction seq2seq, c’est-à-dire la transformation d’une séquence d’images vidéo en une séquence d’intervalles d’actions. Notre méthode propose une série de modifications ainsi que des fonctions de perte auxiliaires appliquées au modèle standard de traduction seq2seq basé sur Transformer, afin de faire face à des séquences d’entrée longues, des séquences de sortie courtes et à un nombre relativement faible de vidéos disponibles. Nous introduisons un signal de supervision auxiliaire pour l’encodeur via une perte au niveau des trames, et proposons un décodeur d’alignement distinct afin de prédire implicitement la durée des actions. Enfin, nous étendons notre cadre au cas de supervision par timestamps en utilisant un algorithme proposé, le k-medoids contraint, pour générer des pseudo-segmentations. Notre approche obtient des performances stables dans les deux cadres de supervision (entièrement supervisé et supervisé par timestamps), surpassant ou égalant les méthodes de pointe sur plusieurs jeux de données. Le code source est disponible publiquement à l’adresse suivante : https://github.com/boschresearch/UVAST.