Command Palette
Search for a command to run...
Ein einheitliches mehrskaliges tiefes convolutionales neuronales Netzwerk für schnelle Objekterkennung
Ein einheitliches mehrskaliges tiefes convolutionales neuronales Netzwerk für schnelle Objekterkennung
Cai Zhaowei Fan Quanfu Feris Rogerio S. Vasconcelos Nuno
Zusammenfassung
Es wird ein einheitliches tiefes künstliches neuronalnetz (Deep Neural Network), das sogenannte Multi-Scale-CNN (MS-CNN), für eine schnelle Objektdetektion in mehreren Skalen vorgeschlagen. Die MS-CNN besteht aus einem Proposal-Unternetz und einem Detektions-Unternetz. Im Proposal-Unternetz erfolgt die Detektion an mehreren Ausgabeschichten, sodass die Empfindlichkeitsfelder (Receptive Fields) Objekten unterschiedlicher Skalen entsprechen. Diese ergänzenden, skalen-spezifischen Detektoren werden kombiniert, um einen leistungsfähigen Multi-Skalen-Objektdetektor zu erzeugen. Das einheitliche Netzwerk wird end-to-end durch Optimierung einer Multi-Task-Verlustfunktion trainiert. Zudem wird die Merkmals-Interpolation mittels Deconvolution als Alternative zur Eingabevergrößerung untersucht, um den Speicher- und Rechenaufwand zu reduzieren. Auf Datensätzen wie KITTI und Caltech, die eine große Anzahl kleiner Objekte enthalten, wird eine state-of-the-art-Objektdetektionsleistung mit bis zu 15 fps berichtet.