DMRNet++: Lernen diskriminativer Merkmale mit entkoppelten Netzwerken und bereicherten Paaren für die One-Step-Person-Suche

Die Personensuche zielt darauf ab, gesuchte Personen aus rohen Videoframes zu lokalisieren und zu erkennen, was eine Kombination zweier Teilaufgaben darstellt: Fußgängerdetektion und Person-Re-Identifikation. Der vorherrschende Ansatz wird als einstufige Personensuche bezeichnet, bei dem Detektion und Identifikation in einem einheitlichen Netzwerk gemeinsam optimiert werden und dabei eine höhere Effizienz aufweist. Dennoch bestehen erhebliche Herausforderungen: (i) widersprüchliche Ziele mehrerer Teilaufgaben im gemeinsamen Merkmalsraum, (ii) inkonsistente Speicherbank aufgrund der begrenzten Batch-Größe und (iii) untergenutzte nicht-labelle Identitäten während des Lernprozesses der Identifikation. Um diese Probleme zu lösen, entwickeln wir ein verbessertes, entkoppeltes und speicherbasiert verstärktes Netzwerk (DMRNet++). Zunächst vereinfachen wir die herkömmlichen eng gekoppelten Pipelines und etablieren einen aufgabenentkoppelten Rahmen (TDF). Zweitens implementieren wir eine speicherbasiert verstärkte Mechanik (MRM), die einen langsamen gleitenden Durchschnitt des Netzwerks nutzt, um die Konsistenz der gespeicherten Merkmale besser zu erfassen. Drittens berücksichtigen wir das Potenzial nicht-labelierter Beispiele und modellieren den Erkennungsprozess als halbüberwachtes Lernen. Hierzu wird eine nicht-labelierte Hilfs-Contrastive-Loss-Funktion (UCL) entwickelt, die die Lernleistung der Identifikationsmerkmale durch Ausnutzung der Aggregation nicht-labelierter Identitäten verbessert. Experimentell erreicht das vorgeschlagene DMRNet++ auf den Datensätzen CUHK-SYSU und PRW mAP-Werte von 94,5 % bzw. 52,1 %, was die Leistung der meisten bestehenden Methoden übertrifft.