Segmentation d'actions avec adaptation de domaine temporel mixte

Les progrès principaux dans le domaine de la segmentation d’actions proviennent des données fortement annotées, utilisées pour l’apprentissage pleinement supervisé. Étant donné que l’annotation manuelle des actions au niveau des trames est à la fois longue et complexe, nous proposons d’exploiter des vidéos non étiquetées auxiliaires, qui sont bien plus faciles à obtenir, en reformulant ce problème comme un problème d’adaptation de domaine (DA). Bien que diverses techniques d’adaptation de domaine aient été récemment proposées, la plupart d’entre elles ont été conçues uniquement dans la direction spatiale. Par conséquent, nous introduisons une méthode appelée Adaptation de domaine temporelle mixte (MTDA), qui permet d’aligner conjointement les espaces de caractéristiques intégrées au niveau des trames et au niveau des vidéos entre différents domaines, tout en intégrant mécanisme d’attention de domaine afin de se concentrer particulièrement sur l’alignement des caractéristiques au niveau des trames présentant un écart de domaine plus élevé, ce qui conduit à une adaptation de domaine plus efficace. Enfin, nous évaluons notre approche sur trois jeux de données exigeants (GTEA, 50Salads et Breakfast), et montrons que MTDA surpasse largement les méthodes de pointe actuelles sur les trois jeux de données (par exemple, une amélioration de 6,4 % en F1@50 et de 6,8 % en score d’édition sur GTEA).