HyperAIHyperAI
il y a 17 jours

ELoPE : Classification visuelle fine-grain avec localisation, pooling et embedding efficaces

Harald Hanselmann, Hermann Ney
ELoPE : Classification visuelle fine-grain avec localisation, pooling et embedding efficaces
Résumé

La tâche de classification visuelle fine-grainée (FGVC) concerne des problèmes de classification caractérisés par une faible variance inter-classes, tels que la distinction entre différentes espèces d’oiseaux ou modèles de voitures. Les approches actuelles les plus avancées abordent généralement ce défi en intégrant un mécanisme d’attention sophistiqué ou une méthode de localisation (partielle) dans un réseau neuronal convolutif (CNN) standard. Dans ce travail, l’objectif consiste à améliorer les performances d’un CNN principal, tel que ResNet, en intégrant trois composants efficaces et légers spécifiquement conçus pour la FGVC. Cela est réalisé grâce à une pooling global k-max, une couche d’embedding discriminant entraînée en optimisant les moyennes des classes, ainsi qu’un estimateur efficace de boîte englobante nécessitant uniquement des étiquettes de classe pour l’entraînement. Le modèle résultant atteint de nouvelles performances record au niveau de la précision de reconnaissance sur les jeux de données Stanford Cars et FGVC-Aircraft.