Techniques non supervisées et auto-adaptatives pour la ré-identification de personnes à travers des domaines

La réidentification de personnes (ReID) à travers des caméras non chevauchantes constitue une tâche particulièrement difficile. À ce titre, la plupart des approches antérieures s’appuient sur un apprentissage supervisé des caractéristiques à partir d’un jeu de données étiqueté afin de corrélater la même personne dans différentes vues. Toutefois, cette approche exige une étiquetage manuel des données, une opération longue et coûteuse en temps, ce qui limite fortement son déploiement rapide, notamment dans des scénarios d’investigation criminelle. L’adaptation de domaine non supervisée (UDA, Unsupervised Domain Adaptation) émerge alors comme une alternative prometteuse, car elle permet d’adapter l’apprentissage des caractéristiques d’un modèle entraîné sur un domaine source vers un domaine cible, sans nécessiter d’étiquettes d’identité. Pourtant, la plupart des algorithmes UDA reposent sur des fonctions de perte complexes comportant plusieurs hyperparamètres, ce qui nuit à leur généralisation dans des contextes variés. En outre, puisque l’UDA repose sur une transformation entre domaines, il est crucial de sélectionner les données les plus fiables issues du domaine inconnu, afin d’éviter la propagation d’erreurs causée par des exemples bruités dans les données cibles — un problème souvent négligé. Dans cette optique, nous proposons une nouvelle méthode UDA pour la ReID, fondée sur une fonction de perte simple ne comportant qu’un seul hyperparamètre, et exploitant des triplets d’échantillons générés par une nouvelle stratégie hors ligne basée sur la diversité des caméras au sein d’un cluster. Cette stratégie permet non seulement d’adapter le modèle, mais aussi de le régulariser, en prévenant le surajustement sur le domaine cible. Nous introduisons également une nouvelle stratégie d’ensemblage auto-supervisé, dans laquelle les poids provenant de différentes itérations sont agrégés pour construire un modèle final intégrant les connaissances acquises à divers stades de l’adaptation. Pour évaluer notre méthode, nous considérons trois architectures profondes bien établies et les combinons pour la prise de décision finale. La méthode proposée ne fait ni appel à une re-réidentification des personnes ni à toute étiquette sur le domaine cible, et surpasse l’état de l’art, avec une configuration bien plus simple, dans les scénarios d’adaptation Market→Duke, Market1501→MSMT17 (exigeant), ainsi que Duke→MSMT17.