T-YOLO : Détection de véhicules miniatures basée sur YOLO et réseaux de neurones convolutifs à plusieurs échelles
Pour résoudre des problèmes du monde réel dans le cadre d’applications urbaines intelligentes, telles que la détection de la occupation des places de parking, l’ajustement fin (fine-tuning) des réseaux neuronaux profonds s’avère nécessaire. Dans le cas de parkings de grande taille, il est souhaitable d’utiliser une caméra située dans un plan central, à une hauteur importante, permettant de surveiller l’intégralité d’un parking ou une vaste zone de stationnement avec une seule caméra. Les modèles actuels les plus populaires pour la détection d’objets, tels que YOLO, offrent des performances de précision satisfaisantes à vitesse temps réel. Toutefois, lorsque l’on utilise des données propres, distinctes des jeux de données généraux comme COCO ou ImageNet, il existe un large potentiel d’amélioration. Dans ce travail, nous proposons un modèle modifié, tout en restant léger, de détection d’objets profonds basé sur l’architecture YOLO-v5. Ce modèle proposé est capable de détecter des objets de grande, moyenne et petite taille. Plus précisément, nous introduisons un mécanisme multi-échelle permettant d’apprendre des représentations discriminantes profondes à différentes échelles, tout en déterminant automatiquement les échelles les plus adaptées pour la détection d’objets dans une scène (dans notre cas, les véhicules). Le module multi-échelle proposé réduit le nombre de paramètres entraînables par rapport à l’architecture originale YOLO-v5. Les résultats expérimentaux démontrent également une amélioration significative de la précision. En effet, comme le montrent les expérimentations, le nombre de paramètres passe de 7,28 millions pour le profil YOLO-v5-S à 7,26 millions dans notre modèle. Par ailleurs, nous avons réduit la vitesse de détection, en atteignant 30 fps, contre les profils YOLO-v5-L/X. En outre, la performance de détection des véhicules de très petite taille a été améliorée de manière significative, de 33 % par rapport au profil YOLO-v5-X.