SVDNet für Fußgängererkennung

Dieses Papier schlägt das SVDNet für Suchprobleme vor, wobei der Fokus auf der Anwendung der Person-Wiedererkennung (re-ID) liegt. Wir betrachten jeden Gewichtsvektor innerhalb einer vollständig verbundenen (FC) Schicht in einem Faltungsneuronennetz (CNN) als Projektionsbasis. Es wird beobachtet, dass die Gewichtsvektoren in der Regel stark korreliert sind. Dieses Problem führt zu Korrelationen zwischen den Einträgen des FC-Deskriptors und beeinträchtigt die Suchleistung basierend auf dem Euklidischen Abstand. Um dieses Problem anzugehen, schlägt dieses Papier vor, den Prozess des tiefen Repräsentationslernens mit Singulärwertzerlegung (SVD) zu optimieren. Insbesondere ermöglicht das Trainingsschema mit Restriktion und Relaxation Iteration (RRI), die Orthogonalitätsbedingung iterativ im CNN-Training zu integrieren, was das sogenannte SVDNet ergibt. Wir führen Experimente auf den Datensätzen Market-1501, CUHK03 und Duke durch und zeigen, dass RRI die Korrelation zwischen den Projektionsvektoren effektiv reduziert, diskriminativere FC-Deskriptoren erzeugt und die re-ID-Genauigkeit erheblich verbessert. Zum Beispiel wird die Genauigkeit des ersten Rangs auf dem Market-1501-Datensatz von 55,3 % auf 80,5 % für CaffeNet und von 73,8 % auf 82,3 % für ResNet-50 verbessert.