HyperAIHyperAI
vor 17 Tagen

V2F-Net: Explizite Zerlegung der verdeckten Fußgängerdetektion

Mingyang Shang, Dawei Xiang, Zhicheng Wang, Erjin Zhou
V2F-Net: Explizite Zerlegung der verdeckten Fußgängerdetektion
Abstract

Oklusion stellt eine große Herausforderung bei der Erkennung von Fußgängern dar. In diesem Artikel stellen wir eine einfache, jedoch effektive Methode namens V2F-Net vor, die die Erkennung occludierter Fußgänger explizit in zwei Schritte zerlegt: die Erkennung sichtbarer Regionen und die Schätzung der vollständigen Körperbox. V2F-Net besteht aus zwei Teilnetzwerken: dem Visible Region Detection Network (VDN) und dem Full Body Estimation Network (FEN). Das VDN zielt darauf ab, sichtbare Regionen lokalisiert zu identifizieren, während das FEN auf Basis der erkannten sichtbaren Box die vollständige Körperbox schätzt. Darüber hinaus schlagen wir ein neuartiges Embedding-basiertes part-aware-Modul (EPM) vor, um die Schätzung der vollständigen Körperbox weiter zu verbessern. Durch die Supervision der Sichtbarkeit jedes Körperteils wird das Netzwerk angeregt, Merkmale mit essentiellen informationshaltigen Körperteil-Informationen zu extrahieren. Experimentell zeigen wir die Wirksamkeit von V2F-Net anhand mehrerer Experimente auf zwei anspruchsvollen Datensätzen. Im Vergleich zur FPN-Baselinemethode erreicht V2F-Net eine Verbesserung um 5,85 % AP auf CrowdHuman und eine Verbesserung um 2,24 % MR-2 auf CityPersons. Zudem bestätigt der konsistente Leistungszuwachs sowohl bei einstufigen als auch bei zweistufigen Detektoren die Verallgemeinerungsfähigkeit unserer Methode.