YOLOv2 dévoilé : comment une architecture plus rapide, plus précise et plus forte a révolutionné la détection d'objets
YOLOv2 et YOLO9000 : une avancée majeure dans la détection d’objets, publiée en décembre 2016 sous le titre provocateur « YOLO9000 : Better, Faster, Stronger », marque une étape clé dans l’évolution des modèles de détection d’objets en temps réel. Bien que le modèle principal soit appelé YOLOv2, le nom YOLO9000 désigne une version spécialisée de ce modèle capable de détecter plus de 9 000 catégories d’objets, construite sur l’architecture YOLOv2. Cette avancée repose sur plusieurs améliorations fondamentales par rapport à YOLOv1, dont les principales limites étaient une erreur de localisation élevée et un rappel insuffisant. Les auteurs ont introduit plusieurs innovations. Premièrement, l’ajout de couches de normalisation par lot (Batch Normalization) a stabilisé l’entraînement, accéléré la convergence et réduit la nécessité de dropout, améliorant le mAP de 63,4 % à 65,8 %. Deuxièmement, une nouvelle stratégie d’ajustement fin (fine-tuning) a été proposée : après avoir pré-entraîné le modèle sur ImageNet à 224×224, une étape intermédiaire de fine-tuning à 448×448 a été ajoutée avant le passage sur PASCAL VOC, ce qui a permis une augmentation du mAP de 65,8 % à 69,5 %. La transition vers des boîtes d’ancrage (anchor boxes) a été un tournant majeur. Contrairement à YOLOv1, qui prédit directement les coordonnées des boîtes, YOLOv2 prédit les offsets par rapport à des boîtes d’ancrage prédéfinies, ce qui rend l’apprentissage plus stable. Ces boîtes d’ancrage ont été générées automatiquement par clustering K-means sur les dimensions des boîtes réelles du dataset, en utilisant une métrique basée sur l’IOU (Intersection over Union), ce qui a permis d’obtenir des prior boxes plus adaptées aux formes des objets que les boîtes manuellement choisies dans Faster R-CNN. Pour éviter les prédictions instables, les auteurs ont modifié la manière de prédire les coordonnées : les abscisses et ordonnées sont prédites relativement à la cellule de grille, avec une fonction sigmoïde pour les contraindre entre 0 et 1, tandis que la largeur et la hauteur sont traitées via une exponentielle pour éviter les valeurs négatives. Cette approche a permis une amélioration significative du mAP, passant de 69,6 % à 74,4 %. Un autre élément clé est la couche de passage (passthrough layer), qui préserve les informations de haute résolution en combinant les caractéristiques du niveau précédent (26×26) avec celles du niveau principal (13×13) par réorganisation des canaux. Cette technique améliore la détection des objets petits, souvent perdus dans les max-pooling successifs. L’architecture YOLOv2 repose sur Darknet-19, un modèle léger composé de 19 couches convolutives, plus efficace que celle de YOLOv1 (5,58 vs 8,52 milliards d’opérations). Enfin, une technique d’entraînement multi-échelle a été mise en œuvre : l’entrée est modifiée aléatoirement toutes les 10 itérations entre 320×320 et 608×608, permettant au modèle d’apprendre à détecter des objets à différentes échelles. Cette approche a porté le mAP à 78,6 % sur des images de 544×544. Pour atteindre la détection de plus de 9 000 classes, les auteurs ont combiné ImageNet (22 000 classes) et COCO (80 classes) via une hiérarchie de classes appelée WordTree. En utilisant cette structure, le modèle peut prédire une classe générale (ex. : « avion ») puis, si nécessaire, descendre dans les sous-classes (ex. : « biplan », « jet »), élargissant ainsi considérablement la portée du modèle. Enfin, une implémentation complète en PyTorch de YOLOv2 a été détaillée, incluant la construction de Darknet-19, la couche de passage, et les couches de prédiction. Le modèle final produit une sortie de dimension 13×13×125 pour une image de 416×416, avec 5 boîtes d’ancrage par cellule et 20 classes (PASCAL VOC), illustrant une architecture entièrement convolutif, rapide et précise. En évaluation, les experts soulignent que YOLOv2 a posé les bases des architectures modernes de détection en temps réel, en combinant performance, vitesse et flexibilité. Des entreprises comme Ultralytics, qui ont développé YOLOv5, YOLOv8 et YOLOv11, s’inspirent directement de ces principes, notamment la structure en blocs convolutifs, la normalisation par lot, et l’approche par boîtes d’ancrage. YOLOv2 reste une référence fondamentale dans le domaine du traitement d’images, symbolisant l’équilibre parfait entre précision, rapidité et généralisation.
