VehicleNet : apprentissage de représentations visuelles robustes pour la ré-identification de véhicules

Un défi fondamental de la ré-identification de véhicules (re-id) consiste à apprendre des représentations visuelles robustes et discriminantes, compte tenu des importantes variations intra-classe observées entre différentes vues de caméras. Étant donné que les jeux de données existants pour les véhicules sont limités en nombre d’images d’entraînement et de points de vue, nous proposons de construire un nouveau jeu de données à grande échelle dédié aux véhicules (appelé VehicleNet) en combinant quatre jeux de données publics existants. Par ailleurs, nous concevons une approche progressive en deux étapes, simple mais efficace, pour apprendre des représentations visuelles plus robustes à partir de VehicleNet. La première étape vise à apprendre une représentation générique valable pour tous les domaines (c’est-à-dire les jeux de données sources) en utilisant une perte de classification classique. Cette étape allège l’alignement complet entre les domaines d’entraînement et de test, car elle est indépendante du domaine cible. La deuxième étape consiste à affiner le modèle entraîné uniquement à partir de l’ensemble de véhicules cibles, en minimisant la discrépance de distribution entre VehicleNet et tout domaine cible. Nous présentons en détail notre nouveau jeu de données multi-source VehicleNet, et évaluons l’efficacité de l’apprentissage progressif en deux étapes à travers des expérimentations étendues. Nos résultats atteignent une précision de 86,07 % en mAP sur l’ensemble de test privé du défi AICity Challenge, ainsi que des performances compétitives sur deux autres jeux de données publics pour la ré-identification de véhicules : VeRi-776 et VehicleID. Nous espérons que ce nouveau jeu de données VehicleNet et les représentations visuelles robustes apprises pourront ouvrir la voie à des avancées dans la ré-identification de véhicules dans des environnements réels.