Voir mieux avant de regarder plus près : Réseau de_augmentation de données faiblement supervisé pour la classification visuelle fine-grained

L'augmentation de données est généralement adoptée pour augmenter la quantité de données d'entraînement, prévenir le surapprentissage et améliorer les performances des modèles profonds. Cependant, en pratique, l'augmentation de données aléatoire, comme le recadrage d'images aléatoire, est peu efficace et peut introduire de nombreux bruits de fond non contrôlés. Dans cet article, nous proposons un réseau d'augmentation de données faiblement supervisé (WS-DAN) pour explorer le potentiel de l'augmentation de données. Plus précisément, pour chaque image d'entraînement, nous générons tout d'abord des cartes d'attention pour représenter les parties discriminantes de l'objet par apprentissage faiblement supervisé. Ensuite, nous augmentons l'image en nous guidant par ces cartes d'attention, y compris le recadrage basé sur l'attention et la suppression basée sur l'attention. Le WS-DAN proposé améliore la précision de classification de deux manières. Dans la première étape, les images peuvent être mieux perçues car plus de caractéristiques des parties discriminantes seront extraites. Dans la deuxième étape, les régions d'attention fournissent une localisation précise de l'objet, ce qui permet à notre modèle d'examiner l'objet plus attentivement et d'améliorer encore davantage les performances. Des expériences exhaustives sur des ensembles de données couramment utilisés pour la classification visuelle fine montrent que notre WS-DAN dépasse les méthodes les plus avancées actuellement disponibles, démontrant ainsi son efficacité.