Apprentissage d'attention multi-branche et multi-échelle pour la catégorisation visuelle fine-grain

Le ImageNet Large Scale Visual Recognition Challenge (ILSVRC) est l'une des compétitions académiques les plus prestigieuses dans le domaine de la vision par ordinateur (CV) ces dernières années. Toutefois, l'application directe du vainqueur annuel de l'ILSVRC aux tâches de catégorisation visuelle fine-grain (FGVC) ne permet pas d'obtenir de bons résultats. En effet, les tâches FGVC sont particulièrement difficiles en raison des faibles variations inter-classes et des fortes variations intra-classes. Notre module de localisation d'objets par attention (AOLM) permet de prédire la position de l'objet, tandis que notre module de proposition de régions pertinentes (APPM) peut identifier des régions partielles informatives sans nécessiter d'étiquettes de boîtes englobantes ou de parties. Les images d'objets ainsi obtenues contiennent presque toute la structure de l'objet, tout en intégrant davantage de détails. Les images partielles présentent des échelles variées et des caractéristiques plus fines, tandis que les images brutes conservent l'intégralité de l'objet. Ces trois types d'images d'entraînement sont supervisés par notre réseau à plusieurs branches. Ainsi, notre réseau d'apprentissage multi-branches et multi-échelles (MMAL-Net) présente une excellente capacité de classification et une robustesse remarquable face à des images à différentes échelles. Notre approche peut être entraînée de manière end-to-end tout en offrant un temps de déduction court. Les expériences approfondies démontrent que notre méthode atteint des résultats de pointe sur les jeux de données CUB-200-2011, FGVC-Aircraft et Stanford Cars. Le code source sera disponible à l'adresse suivante : https://github.com/ZF1044404254/MMAL-Net