Minage de triplet préservant les relations pour stabiliser la perte de triplet dans les systèmes de ré-identification

Les apparences des objets varient considérablement en fonction des changements de posture. Cela pose un défi aux schémas d’encodage dont l’objectif est de mapper des instances portant le même identifiant d’objet vers des emplacements aussi proches que possible. Ce problème est particulièrement accentué dans des tâches complexes de vision par ordinateur telles que la réidentification (reID). Dans cet article, nous proposons que ces variations d’apparence importantes indiquent qu’un identifiant d’objet est en réalité composé de plusieurs groupes naturels, et qu’il est contre-productif de forcer la mise en correspondance d’instances provenant de groupes différents vers un même emplacement. Cela nous amène à introduire une méthode de sélection de triplets appelée Relation Preserving Triplet Mining (RPTM), un schéma de sélection de triplets guidé par le matching de caractéristiques, qui garantit que les triplets respectent les sous-groupes naturels présents au sein d’un même identifiant d’objet. En utilisant ce mécanisme de sélection, nous définissons une perte de triplet bien conditionnée et sensible à la posture, en imposant implicitement une cohérence selon les vues. Cette approche permet d’entraîner un unique réseau avec des paramètres fixes sur différents jeux de données, tout en obtenant des résultats de pointe. Le code source est disponible à l’adresse suivante : https://github.com/adhirajghosh/RPTM_reid.