Robuste Re-Identifikation durch Wissensdistillation mit mehreren Ansichten

Um Robustheit bei der Re-Identifikation zu erreichen, nutzen herkömmliche Methoden Tracking-Informationen auf Video-zu-Video-Basis. Diese Ansätze weisen jedoch eine erhebliche Leistungsabnahme bei Einzelbildabfragen (z. B. im Image-to-Video-Szenario) auf. Kürzlich vorgestellte Arbeiten adressieren diese starke Degradierung, indem sie zeitliche Informationen von einem videobasierten Netzwerk auf ein bildbasiertes Netzwerk übertragen. In dieser Arbeit entwickeln wir eine Trainingsstrategie, die den Transfer überlegener Kenntnisse ermöglicht, die sich aus einer Reihe von Ansichten eines Zielobjekts ergeben. Unser Ansatz – Views Knowledge Distillation (VKD) – nutzt diese visuelle Vielfalt als Überwachungssignal innerhalb eines Lehrer-Schüler-Rahmens, wobei der Lehrer einen Schüler unterrichtet, der nur wenige Ansichten beobachtet. Als Ergebnis übertrifft der Schüler nicht nur seinen Lehrer, sondern auch den aktuellen Stand der Technik im Image-to-Video-Szenario mit deutlichem Abstand (6,3 % mAP auf MARS, 8,6 % auf Duke-Video-ReID und 5 % auf VeRi-776). Eine umfassende Analyse – anhand von Person-, Fahrzeug- und Tier-Re-ID – untersucht die Eigenschaften von VKD sowohl qualitativ als auch quantitativ. Der Quellcode ist unter https://github.com/aimagelab/VKD verfügbar.