Alignement Temporel Attentif pour l'Adaptation de Domaine Vidéo

Bien que diverses techniques d'adaptation de domaine basées sur les images (DA) aient été proposées ces dernières années, le décalage de domaine dans les vidéos reste encore peu exploré. La plupart des travaux précédents n'évaluent les performances que sur des ensembles de données de petite échelle qui sont saturés. Nous proposons donc tout d'abord un ensemble de données à plus grande échelle présentant une plus grande disparité de domaine : UCF-HMDB_full. Ensuite, nous examinons différentes méthodes d'intégration de l'adaptation de domaine pour les vidéos et montrons que l'alignement simultané et l'apprentissage des dynamiques temporelles permettent d'atteindre un alignement efficace même sans méthodes complexes d'adaptation de domaine. Enfin, nous proposons le réseau Temporal Attentive Adversarial Adaptation (TA3N), qui attache explicitement une attention aux dynamiques temporelles en utilisant la disparité de domaine pour un alignement de domaine plus efficace, obtenant ainsi des performances d'avant-garde sur trois ensembles de données d'adaptation de domaine vidéo. Le code et les données sont disponibles à l'adresse http://github.com/cmhungsteve/TA3N.