Modèles de parties complémentaires faiblement supervisés pour la classification d'images détaillées de bas en haut

Étant donné un ensemble de données d'entraînement composé d'images et des étiquettes de catégorie correspondantes, les réseaux de neurones convolutifs profonds montrent une forte capacité à extraire des parties discriminantes pour la classification d'images. Cependant, les réseaux de neurones convolutifs profonds formés uniquement avec des étiquettes au niveau de l'image ont tendance à se concentrer sur les parties les plus discriminantes tout en négligeant d'autres parties d'objets qui pourraient fournir des informations complémentaires. Dans cet article, nous abordons ce problème sous un angle différent. Nous construisons des modèles de parties complémentaires de manière faiblement supervisée afin de récupérer les informations masquées par les parties dominantes d'objets détectées par les réseaux de neurones convolutifs. En ne disposant que d'étiquettes au niveau de l'image, nous extrayons d'abord des instances d'objets grossières en effectuant une détection d'objets et un segmentionnement d'instances faiblement supervisés à l'aide du Mask R-CNN et du segmentionnement basé sur le champ aléatoire conditionnel (CRF). Ensuite, nous estimons et recherchons le meilleur modèle de parties pour chaque instance d'objet selon le principe de préserver autant de diversité que possible. Dans la dernière étape, nous construisons un réseau neuronal à mémoire à court et long terme bidirectionnel (LSTM) pour fusionner et encoder les informations partielles de ces parties complémentaires en une caractéristique complète pour la classification d'images. Les résultats expérimentaux indiquent que la méthode proposée non seulement réalise une amélioration significative par rapport à nos modèles de base, mais aussi surpassent largement les algorithmes de pointe actuels (respectivement 6,7 %, 2,8 % et 5,2 %) sur Stanford Dogs 120, Caltech-UCSD Birds 2011-200 et Caltech 256.