HyperAIHyperAI
il y a 17 jours

SpineNet : apprentissage d’un squelette permutation-échelle pour la reconnaissance et la localisation

Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, Golnaz Ghiasi, Mingxing Tan, Yin Cui, Quoc V. Le, Xiaodan Song
SpineNet : apprentissage d’un squelette permutation-échelle pour la reconnaissance et la localisation
Résumé

Les réseaux de neurones convolutifs encodent généralement une image d’entrée en une série de caractéristiques intermédiaires dont la résolution diminue progressivement. Bien que cette structure soit adaptée aux tâches de classification, elle se révèle peu efficace pour les tâches nécessitant une reconnaissance et une localisation simultanées (par exemple, la détection d’objets). Pour remédier à ce problème, les architectures encodeur-décodeur ont été proposées, en combinant un réseau décodeur à un modèle principal (backbone) conçu initialement pour la classification. Dans cet article, nous affirmons qu’une telle architecture encodeur-décodeur est peu efficace pour générer des caractéristiques multi-échelle fortes en raison du backbone à résolution décroissante. Nous proposons SpineNet, un backbone doté de caractéristiques intermédiaires permutées selon l’échelle et de connexions trans-échelles, appris sur une tâche de détection d’objets via une recherche architecturale neuronale (Neural Architecture Search). En utilisant des blocs de construction similaires, les modèles SpineNet surpassent les modèles ResNet-FPN d’environ 3 % de précision moyenne (AP) à différentes échelles, tout en utilisant de 10 à 20 % moins d’opérations flottantes (FLOPs). En particulier, SpineNet-190 atteint 52,5 % d’AP avec un détecteur Mask R-CNN et 52,1 % d’AP avec un détecteur RetinaNet sur COCO, pour un seul modèle sans augmentation à l’inférence, dépassant significativement les meilleures solutions antérieures. SpineNet peut également être transféré vers des tâches de classification, où il améliore de 5 % la précision top-1 sur un ensemble de données exigeant de la fine-graindure (iNaturalist). Le code est disponible à l’adresse suivante : https://github.com/tensorflow/tpu/tree/master/models/official/detection.

SpineNet : apprentissage d’un squelette permutation-échelle pour la reconnaissance et la localisation | Articles de recherche récents | HyperAI