Tiefes Assoziationslernen für die unüberwachte Video-Personen-Wiedererkennung

Tiefes Lernen hat begonnen, die Forschungsfortschritte im Bereich der videobasierten Person-Wiedererkennung (Re-ID) zu dominieren. Bestehende Methoden betrachten jedoch hauptsächlich überwachtes Lernen, das umfangreiche manuelle Arbeit für das Beschriften von paarweisen Daten aus verschiedenen Sichtweisen erfordert. Daher fehlen diese Methoden in realen Videoüberwachungsanwendungen schwerwiegend an Skalierbarkeit und Praktikabilität. In dieser Arbeit formulieren wir ein neues Schema des tiefen Assoziationslernens (Deep Association Learning, DAL), die erste end-to-end Tiefen-Lernmethode, die keine Identitätslabels in der Modellinitialisierung und -trainingsphase verwendet. DAL lernt ein tiefes Re-ID-Matchingmodell, indem es zwei margenbasierte Assoziationsverluste auf optimierte Weise vereint, was effektiv die Assoziation jedes Frames mit der besten übereinstimmenden innerkamerischen Darstellung und der übereinstimmenden interkamerischen Darstellung einschränkt. Existierende Standard-CNNs können problemlos in unser DAL-Schema integriert werden. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes DAL auf drei Benchmarks – PRID 2011, iLIDS-VID und MARS – erheblich besser abschneidet als aktuelle state-of-the-art unüberwachte Videoperson-Re-ID-Methoden.