Shuffle and Attend : Adaptation de domaine vidéo

Nous abordons le problème d’adaptation de domaine dans les vidéos pour la tâche de reconnaissance d’actions humaines. Inspirés par les méthodes d’adaptation de domaine basées sur les images, nous pouvons réaliser l’adaptation vidéo en alignant les caractéristiques des cadres ou des segments (clips) des vidéos sources et cibles. Toutefois, aligner uniformément tous les clips s’avère sous-optimale, car tous les clips ne sont pas également informatifs pour la tâche. En tant que première innovation, nous proposons un mécanisme d’attention qui se concentre sur les clips les plus discriminants et optimise directement l’alignement au niveau de la vidéo (par opposition au niveau du clip). Étant donné que les arrière-plans sont souvent très différents entre les sources et les cibles, le modèle entraîné sur des vidéos avec arrière-plan bruité (source) s’adapte mal aux vidéos de domaine cible. Pour atténuer ce problème, en tant que deuxième innovation, nous proposons d’utiliser la prédiction de l’ordre des clips comme tâche auxiliaire. La perte associée à cette prédiction, combinée à la perte adversarielle de domaine, encourage l’apprentissage de représentations qui se concentrent sur les humains et les objets impliqués dans les actions, plutôt que sur les arrière-plans peu informatifs et très différents entre les domaines source et cible. Nous montrons empiriquement que les deux composants contribuent positivement à la performance d’adaptation. Nous rapportons des performances de pointe sur deux des trois benchmarks publics exigeants, deux fondés sur les jeux de données UCF et HMDB, et un autre sur Kinetics vers les données NEC-Drone. Nous soutenons également nos intuitions et résultats par des analyses qualitatives.