Fused DNN: Ein Ansatz zur Fusion von tiefen neuronalen Netzen für eine schnelle und robuste Fußgängererkennung

Wir schlagen eine Fusionsarchitektur für tiefes neuronales Netzwerk vor, die schnelle und robuste Fußgängererkennung ermöglicht. Die vorgeschlagene Netzwerkfusionsarchitektur ermöglicht die parallele Verarbeitung mehrerer Netze zur Erhöhung der Geschwindigkeit. Ein Single-Shot-Tiefes-Faltungsnetzwerk wird als Objekterkennungssystem trainiert, um alle möglichen Fußgängerkandidaten unterschiedlicher Größen und Verschattungen zu generieren. Dieses Netzwerk gibt eine Vielzahl von Fußgängerkandidaten aus, um den Großteil der echten Fußgänger abzudecken, wobei gleichzeitig eine große Anzahl von Fehlalarmen eingeführt wird. Im nächsten Schritt werden mehrere tiefe neuronale Netze parallel verwendet, um diese Fußgängerkandidaten weiter zu verfeinern. Wir stellen eine fusionsbasierte Methode mit sanfter Ablehnung vor, um die weichen Metriken aller Netze zusammenzuführen und die endgültigen Konfidenzwerte zu generieren. Unsere Methode übertrifft bestehende Stand-von-der-Kunst-Verfahren, insbesondere bei der Erkennung von kleingewachsenen und verschatteten Fußgängern. Darüber hinaus schlagen wir eine Methode vor, um ein pixelweise semantisches Segmentierungsnetzwerk in die Netzwerkfusionsarchitektur zu integrieren, um den Fußgängererkennungsdetektor zu verstärken. Der Ansatz übertrifft Stand-von-der-Kunst-Methoden bei den meisten Protokollen des Caltech-People-Datensatzes (Caltech Pedestrian dataset) und erzielt bei mehreren Protokollen erhebliche Verbesserungen. Er ist zudem schneller als alle anderen Methoden.