Entkoppelte und speicherbasiert verstärkte Netzwerke: Ein Weg zur effektiven Merkmalslernung für Personensuche in einem Schritt

Das Ziel der Personensuche besteht darin, abgefragte Personen in Szenenbildern zu lokalisieren und zuzuordnen. Um hohe Effizienz zu gewährleisten, wurden einstufige Ansätze entwickelt, die die Unter-Aufgaben Detektion von Fußgängern und Identifikation gemeinsam mit einem einzigen Netzwerk bearbeiten. Derzeit bestehen zwei wesentliche Herausforderungen bei diesen einstufigen Methoden. Erstens besteht eine gegenseitige Störung zwischen den Optimierungszielen mehrerer Unter-Aufgaben. Zweitens führt die geringe Mini-Batch-Größe während des end-to-end-Trainings zu suboptimaler Lernleistung der Identifikationsmerkmale. Um diese Probleme zu überwinden, schlagen wir ein entkoppeltes und speicherbasiert verstärktes Netzwerk (DMRNet) vor. Konkret lösen wir die Konflikte mehrerer Ziele, indem wir die herkömmlichen eng gekoppelten Pipelines vereinfachen und einen tief entkoppelten Mehraufgaben-Lernrahmen aufbauen. Darüber hinaus implementieren wir eine speicherbasiert verstärkte Mechanik, um die Lernleistung der Identifikationsmerkmale zu verbessern. Durch das Puffern der Identifikationsmerkmale kürzlich zugreifender Instanzen in einen Speicherpool wird die Konstruktion von相似itäts-Paaren für das paarweise metrische Lernen ergänzt. Um eine bessere Konsistenz der gespeicherten Merkmale zu gewährleisten, wird ein langsamer beweglicher Durchschnitt des Netzwerks zur Extraktion dieser Merkmale verwendet. Auf diese Weise verstärken sich die beiden Netzwerke wechselseitig und konvergieren zu robusten Lösungszuständen. Experimentell erzielt die vorgeschlagene Methode auf den Datensätzen CUHK-SYSU und PRW mAP-Werte von 93,2 % bzw. 46,9 %, was alle bestehenden einstufigen Methoden übertrifft.