Apprentissage biparti adversarial pour l’adaptation de domaine vidéo

Les techniques d’adaptation de domaine, qui visent à adapter les modèles entre des domaines distribués différemment, sont peu explorées dans le domaine de la reconnaissance vidéo en raison des importantes variations spatiales et temporelles entre les domaines source (c’est-à-dire d’entraînement) et cible (c’est-à-dire de test). En conséquence, les travaux récents sur l’adaptation de domaine visuelle, qui exploitent l’apprentissage adversarial pour uniformiser les représentations vidéo source et cible et renforcer la transférabilité des caractéristiques, se révèlent peu efficaces sur les vidéos. Pour surmonter cette limitation, nous proposons dans cet article d’apprendre un classificateur vidéo indépendant du domaine, au lieu d’apprendre des représentations invariantes au domaine, et introduisons un cadre d’apprentissage graphique bipartite adversarial (ABG) qui modélise directement les interactions entre les domaines source et cible via une topologie de graphe bipartite. Plus précisément, les cadres source et cible sont échantillonnés comme des sommets hétérogènes, tandis que les arêtes reliant les deux types de nœuds mesurent l’affinité entre eux. Grâce au passage de messages, chaque sommet agrège les caractéristiques de ses voisins hétérogènes, ce qui force les caractéristiques issues de la même classe à être mélangées de manière équilibrée. Exposer explicitement le classificateur vidéo à ces représentations transverses aux domaines, tant à l’étape d’entraînement qu’à celle de test, réduit la biaisure de notre modèle vis-à-vis des données source étiquetées, ce qui se traduit par une meilleure généralisation sur le domaine cible. Pour renforcer davantage la capacité du modèle et tester la robustesse de l’architecture proposée sur des tâches d’adaptation complexes, nous étendons notre modèle à un cadre semi-supervisé en intégrant un graphe bipartite supplémentaire au niveau de la vidéo. Des expériences étendues menées sur quatre benchmarks confirment l’efficacité de l’approche proposée par rapport aux méthodes de l’état de l’art pour la reconnaissance vidéo.