Ré-ordonnancement de la classification grossière avec des caractéristiques renforcées par région locale pour la reconnaissance d’images fine-grained

La reconnaissance d’images à granularité fine est particulièrement difficile en raison de la difficulté à capturer à la fois des caractéristiques globales sémantiques et des caractéristiques locales discriminantes. Par ailleurs, l’intégration de ces deux types de caractéristiques n’est pas aisée, et peut même s’avérer contradictoire lorsqu’elles sont utilisées simultanément. Dans cet article, nous proposons un cadre de reconnaissance basé sur la récupération, suivant une approche de grossier à fin, où nous réordonnons les résultats de classification TopN en utilisant des caractéristiques d’embedding enrichies par des régions locales afin d’améliorer la précision Top1 (en se basant sur l’observation que la catégorie correcte se trouve généralement parmi les résultats TopN). Pour identifier les régions discriminantes permettant de distinguer les images à granularité fine, nous introduisons une méthode faiblement supervisée pour entraîner une branche de génération de boîtes englobantes à l’aide uniquement d’étiquettes au niveau de l’image. En outre, afin d’apprendre des caractéristiques globales sémantiques plus efficaces, nous concevons une perte multi-niveaux sur une structure hiérarchique de catégories construite automatiquement. Les résultats expérimentaux montrent que notre méthode atteint un niveau d’performance état-de-l’art sur trois benchmarks : CUB-200-2011, Stanford Cars et FGVC Aircraft. Des visualisations et analyses complémentaires sont également fournies pour une meilleure compréhension.