Apprenez-vous mutuellement pour classifier mieux : apprentissage d'attention mutuelle à travers les couches pour la classification visuelle fine-grainée
La classification visuelle fine-grain (FGVC) est à la fois précieuse et difficile. La difficulté de la FGVC provient principalement de la similarité inter-classes intrinsèque, de la variation intra-classes et du manque de données d'entraînement. Par ailleurs, avec la popularité des réseaux de neurones convolutifs profonds (CNN), les chercheurs ont principalement exploité des informations sémantiques abstraites et profondes pour la FGVC, tandis que les informations détaillées et superficielles ont été négligées. Ce travail propose un réseau d'apprentissage mutuel à attention inter-couches (CMAL-Net) afin de surmonter ces défis. Plus précisément, nous considérons les couches superficielles à profondes des CNN comme des « experts » possédant des connaissances sur des perspectives différentes. Chaque expert émet une prédiction de catégorie ainsi qu'une région d'attention indiquant les indices détectés. Ces régions d'attention agissent comme des vecteurs d'information entre les experts, offrant trois avantages : (i) aider le modèle à se concentrer sur les régions discriminantes ; (ii) fournir davantage de données d'entraînement ; (iii) permettre aux experts d'apprendre mutuellement afin d'améliorer les performances globales. Le CMAL-Net atteint des performances de pointe sur trois jeux de données compétitifs : FGVC-Aircraft, Stanford Cars et Food-11.