Pedestrienerkennung und -segmentierung durch simultanes Detektieren und Segmentieren

Die Erkennung von Fußgängern ist ein entscheidendes Problem im Bereich der Computer Vision und hat einen erheblichen Einfluss auf die Sicherheit bei autonomen Fahrzeugen in städtischen Umgebungen. In dieser Arbeit untersuchen wir, wie semantische Segmentierung verwendet werden kann, um die Genauigkeit der Fußgängererkennung zu verbessern, ohne dabei die Effizienz des Netzwerks erheblich zu beeinträchtigen. Wir schlagen ein Segmentierungsinfusionssystem vor, das eine gemeinsame Überwachung von semantischer Segmentierung und Fußgängererkennung ermöglicht. Wenn diese zusätzliche Überwachung richtig platziert wird, hilft sie dabei, die Merkmale in den geteilten Schichten zu verfeinern und für den nachgeschalteten Fußgängererkennungsmechanismus nützlicher zu machen. Mit diesem Ansatz stellen wir fest, dass schwach annotierte Boxen ausreichend sind, um erhebliche Leistungsverbesserungen zu erzielen. Wir führen eine detaillierte Analyse durch, um zu zeigen, wie die geteilten Schichten durch die Segmentierungsüberwachung geformt werden. Dabei demonstrieren wir, dass die resultierenden Merkmalskarten semantisch bedeutender und robuster gegenüber Formveränderungen und Verdeckungen werden. Insgesamt erreicht unser simultanes Erkennungs- und Segmentierungsframework einen erheblichen Vorteil gegenüber dem aktuellen Stand der Technik auf dem Caltech-Fußgänger-Datensatz (Caltech pedestrian dataset), wettbewerbsfähige Ergebnisse auf KITTI und arbeitet 2-mal schneller als vergleichbare Methoden.