Un Réseau de Neurones Convolutifs Profonds Unifié Multi-échelle pour la Détection Rapide d'Objets

Un réseau neuronal profond unifié, dénommé le CNN multi-échelle (MS-CNN), est proposé pour la détection rapide d'objets à plusieurs échelles. Le MS-CNN se compose d'un sous-réseau de propositions et d'un sous-réseau de détection. Dans le sous-réseau de propositions, la détection est effectuée sur plusieurs couches de sortie, afin que les champs récepteurs correspondent aux objets de différentes échelles. Ces détecteurs spécifiques à chaque échelle, complémentaires entre eux, sont combinés pour produire un détecteur d'objets multi-échelle performant. Le réseau unifié est appris de bout en bout, en optimisant une perte multitâche. L'amplification des caractéristiques par déconvolution est également explorée comme alternative à l'amplification de l'entrée, afin de réduire les coûts mémoire et de calcul. Des performances de détection d'objets au niveau de l'état de l'art, atteignant jusqu'à 15 images par seconde (fps), sont rapportées sur des ensembles de données tels que KITTI et Caltech, qui contiennent un nombre important d'objets petits.