il y a 2 mois

Exploiter les annotations de boîtes englobantes pour la reconnaissance d'objets multi-étiquettes

Hao Yang; Joey Tianyi Zhou; Yu Zhang; Bin-Bin Gao; Jianxin Wu; Jianfei Cai

Résumé

Les réseaux de neurones convolutifs (CNNs) ont montré des performances remarquables en tant que représentations de caractéristiques générales pour les applications de reconnaissance d'objets. Cependant, pour les images à étiquettes multiples contenant plusieurs objets de différentes catégories, échelles et positions, les caractéristiques globales des CNNs ne sont pas optimales. Dans cet article, nous intégrons des informations locales pour améliorer la puissance discriminante des caractéristiques. Plus précisément, nous extrayons d'abord des propositions d'objets de chaque image. En traitant chaque image comme un sac et les propositions d'objets extraites comme des instances, nous transformons le problème de reconnaissance à étiquettes multiples en un problème d'apprentissage multi-instance multiclasses. Ensuite, en plus d'extraire la représentation typique des caractéristiques CNN de chaque proposition, nous proposons d'utiliser les annotations de boîtes englobantes véritables (étiquettes fortes) pour ajouter un autre niveau d'informations locales en utilisant les relations de plus proche voisin entre les régions locales afin de former une pipeline multivue. Le cadre multivue multi-instance proposé utilise efficacement à la fois des étiquettes faibles et fortes, et plus important encore, il possède une capacité de généralisation qui peut même améliorer la performance des catégories non vues grâce aux étiquettes fortes partielles provenant d'autres catégories. Notre cadre est largement comparé aux méthodes basées sur des caractéristiques conçues manuellement et aux méthodes basées sur CNN sur deux jeux de données de référence à étiquettes multiples. Les résultats expérimentaux valident la puissance discriminante et la capacité de généralisation du cadre proposé. Avec des étiquettes fortes, notre cadre est capable d'obtenir des résultats au niveau de l'état de l'art dans les deux jeux de données.