Réidentification robuste par distillation de connaissance à vue multiple

Pour assurer la robustesse en ré-identification, les méthodes classiques exploitent l'information de suivi de manière vidéo à vidéo. Toutefois, ces approches subissent une dégradation importante des performances lorsqu'elles sont confrontées à des requêtes portant sur une seule image (par exemple, dans le cadre Image-à-Vidéo). Des travaux récents tentent de corriger cette dégradation sévère en transférant l'information temporelle d'un modèle basé sur la vidéo vers un modèle basé sur l'image. Dans ce travail, nous proposons une stratégie d'entraînement permettant de transférer un savoir supérieur issu d'un ensemble de vues représentant l'objet cible. Notre méthode, nommée Distillation de Connaissances à partir de Vues (VKD), utilise cette variété visuelle comme signal de supervision dans un cadre enseignant-étudiant, où l'enseignant guide un étudiant qui observe un nombre réduit de vues. En conséquence, l'étudiant surpassent non seulement leur enseignant, mais aussi l’état de l’art actuel dans le cadre Image-à-Vidéo, avec une marge significative (6,3 % de mAP sur MARS, 8,6 % sur Duke-Video-ReID et 5 % sur VeRi-776). Une analyse approfondie, menée sur la ré-identification de personnes, de véhicules et d’animaux, examine les propriétés de VKD sous des angles qualitatif et quantitatif. Le code est disponible à l’adresse suivante : https://github.com/aimagelab/VKD.