MicronNet : Une architecture de réseau neuronal convolutif profond hautement compacte pour la classification en temps réel des panneaux de signalisation embarqués

La reconnaissance des panneaux de signalisation est une tâche très importante en vision par ordinateur pour de nombreuses applications dans le monde réel, telles que la surveillance et l'analyse du transport intelligent. Bien que les réseaux neuronaux profonds aient démontré ces dernières années des performances de pointe en reconnaissance des panneaux de signalisation, un défi majeur pour permettre leur déploiement généralisé dans des systèmes embarqués est la forte exigence en termes de calcul et de mémoire de ces réseaux. Par conséquent, il y a un intérêt considérable à étudier des architectures de réseaux neuronaux profonds compacts qui sont mieux adaptées aux dispositifs embarqués. Dans cet article, nous présentons MicronNet, un réseau neuronal convolutif profond très compact conçu pour la reconnaissance en temps réel des panneaux de signalisation sur des systèmes embarqués. Ce réseau est basé sur des principes de conception macro-architecturale (par exemple, l'augmentation macro-architecturale spectrale, l'optimisation de la précision des paramètres, etc.) ainsi que sur des stratégies d'optimisation micro-architecturale numérique. L'architecture globale de MicronNet est donc conçue avec le moins de paramètres et de calculs possible tout en maintenant les performances de reconnaissance, ce qui conduit à une densité d'information optimisée du réseau proposé. Le modèle MicronNet resultant possède une taille d'environ 1 Mo et environ 510 000 paramètres (environ 27 fois moins de paramètres que l'état de l'art) tout en atteignant une précision top-1 au niveau humain de 98,9 % sur le benchmark allemand de reconnaissance des panneaux de signalisation. De plus, MicronNet nécessite seulement environ 10 millions d'opérations multiply-accumulate pour effectuer l'inférence et a un temps de calcul d'environ 32,19 ms sur un processeur Cortex-A53 à haute efficacité énergétique. Ces résultats expérimentaux montrent qu'il est possible de concevoir des architectures de réseaux neuronaux profonds compacts et optimisés pour la reconnaissance en temps réel des panneaux de signalisation, bien adaptées aux scénarios embarqués.