HyperAIHyperAI
il y a 18 jours

CBNet : Une architecture de réseau principal composite pour la détection d'objets

Tingting Liang, Xiaojie Chu, Yudong Liu, Yongtao Wang, Zhi Tang, Wei Chu, Jingdong Chen, Haibin Ling
CBNet : Une architecture de réseau principal composite pour la détection d'objets
Résumé

Les détecteurs d'objets modernes et hautement performants dépendent fortement des réseaux de base (backbone networks), dont les progrès permettent d'obtenir des gains constants en performance grâce à l'exploration de structures réseau plus efficaces. Dans cet article, nous proposons un nouveau cadre de réseau de base flexible et innovant, nommé CBNetV2, destiné à construire des détecteurs à haute performance en utilisant des réseaux de base pré-entraînés open-source existants dans le cadre du paradigme d'entraînement par fine-tuning. En particulier, l'architecture CBNetV2 regroupe plusieurs réseaux de base identiques, interconnectés par des connexions composites. Elle intègre de manière efficace les caractéristiques de haut et de bas niveau provenant de plusieurs réseaux de base, tout en élargissant progressivement le champ réceptif pour améliorer l'efficacité de la détection d'objets. Nous proposons également une stratégie d'entraînement améliorée basée sur une supervision assistée pour les détecteurs fondés sur CBNet. Sans nécessiter de pré-entraînement supplémentaire du réseau composite, CBNetV2 peut être facilement adapté à divers réseaux de base (basés sur CNN ou Transformer) ainsi qu'à différentes architectures de tête pour la plupart des détecteurs courants (uniques ou à deux étapes, basés sur des ancres ou sans ancres). Les expériences fournissent des preuves solides selon lesquelles, par rapport à une simple augmentation de la profondeur et de la largeur du réseau, CBNetV2 offre une approche plus efficace, plus performante et plus respectueuse des ressources pour concevoir des réseaux de base à haute performance. En particulier, notre modèle Dual-Swin-L atteint 59,4 % d'AP pour les boîtes (box AP) et 51,6 % d'AP pour les masques (mask AP) sur le jeu de test COCO test-dev, selon le protocole d'évaluation à un modèle et à une échelle, ce qui représente une amélioration significative par rapport au résultat de l'état de l'art (57,7 % box AP et 50,2 % mask AP) obtenu par Swin-L, tout en réduisant le temps d'entraînement de 6 fois. Avec une évaluation à plusieurs échelles, nous atteignons un nouveau record avec un seul modèle : 60,1 % box AP et 52,3 % mask AP, sans recourir à des données d'entraînement supplémentaires. Le code est disponible à l'adresse suivante : https://github.com/VDIGPKU/CBNetV2.