HyperAIHyperAI
vor 17 Tagen

PS-RCNN: Detektion sekundärer menschlicher Instanzen in einer Menschenmenge durch Unterdrückung primärer Objekte

Zheng Ge, Zequn Jie, Xin Huang, Rong Xu, Osamu Yoshie
PS-RCNN: Detektion sekundärer menschlicher Instanzen in einer Menschenmenge durch Unterdrückung primärer Objekte
Abstract

Die Erkennung menschlicher Körper in extrem stark besetzten Szenen stellt eine herausfordernde Aufgabe dar. Zwei Hauptgründe führen zu dieser Schwierigkeit: 1) schwache visuelle Merkmale schwer occludierter Objekte können kaum ausreichende Informationen für eine präzise Erkennung liefern; 2) schwer occludierte Objekte sind anfälliger für Unterdrückung durch Non-Maximum-Suppression (NMS). Um diese beiden Probleme anzugehen, führen wir eine Variante zweistufiger Detektoren ein, namens PS-RCNN. PS-RCNN erkennt zunächst leicht oder gar nicht occludierte Objekte mittels eines R-CNN-Moduls (bezeichnet als P-RCNN) und unterdrückt anschließend die detektierten Instanzen mithilfe von menschenförmiger Masken, sodass die Merkmale schwer occludierter Objekte hervorstechen. Anschließend nutzt PS-RCNN ein weiteres, speziell auf die Erkennung schwer occludierter Menschen optimiertes R-CNN-Modul (bezeichnet als S-RCNN), um die verpassten Objekte, die von P-RCNN nicht erkannt wurden, zu detektieren. Die endgültigen Ergebnisse ergeben sich aus der Kombination der Ausgaben beider R-CNN-Module. Zudem führen wir ein High-Resolution RoI Align (HRRA)-Modul ein, um so viele feinkörnige Merkmale der sichtbaren Teile schwer occludierter Menschen wie möglich zu bewahren. Im Vergleich zur Basislinie verbessert PS-RCNN die Recall-Rate um 4,49 % und die AP um 2,92 % auf dem CrowdHuman-Datensatz. Ähnliche Verbesserungen werden auch auf dem WiderPerson-Datensatz erreicht.