Adaptation de domaine structurée avec régularisation relationnelle en ligne pour la ré-identification de personnes non supervisée

L’adaptation de domaine non supervisée (UDA) vise à adapter un modèle entraîné sur un ensemble de données du domaine source étiqueté à un ensemble de données du domaine cible non étiqueté. La tâche de l’UDA dans le cadre de la ré-identification de personnes en environnement ouvert (open-set re-ID) est encore plus difficile, car les identités (classes) ne se chevauchent pas entre les deux domaines. Une approche majeure reposait sur la translation de domaine, qui a toutefois perdu de sa popularité ces dernières années en raison de performances inférieures par rapport aux méthodes basées sur les pseudo-étiquettes. Nous affirmons que la translation de domaine possède un grand potentiel pour exploiter efficacement les données précieuses du domaine source, mais que les méthodes existantes n’ont pas fourni une régularisation adéquate du processus de translation. Plus précisément, les approches antérieures se concentrent uniquement sur la préservation des identités des images traduites, tout en ignorant les relations inter-échantillons durant la translation. Pour relever ces défis, nous proposons un cadre d’adaptation de domaine structuré, end-to-end, enrichi d’un terme de régularisation en temps réel sur la cohérence des relations. Pendant l’entraînement, l’encodeur de caractéristiques des personnes est optimisé pour modéliser en temps réel les relations inter-échantillons, afin de superviser la translation de domaine cohérente au niveau des relations, ce qui améliore à son tour l’encodeur grâce à des images traduites informatives. L’encodeur peut être ultérieurement affiné à l’aide de pseudo-étiquettes, où les images traduites du domaine source (avec des identités véritables) et les images du domaine cible (avec des pseudo-identités) sont utilisées conjointement pour l’entraînement. Les expériences montrent que notre cadre proposé atteint des performances de pointe sur plusieurs tâches d’UDA en ré-identification de personnes. Grâce aux images synthétiques vers réelles générées par notre réseau de translation de domaine structuré, nous avons obtenu la deuxième place au Visual Domain Adaptation Challenge (VisDA) en 2020.