Confusion par paires pour la classification visuelle fine

Les ensembles de données pour la classification visuelle fine-grainée (FGVC) contiennent des tailles d'échantillons réduites, ainsi qu'une variation intra-classe importante et une similarité inter-classe significative. Bien que les travaux antérieurs aient abordé la variation intra-classe en utilisant des techniques de localisation et de segmentation, la similarité inter-classe peut également affecter l'apprentissage des caractéristiques et réduire les performances de classification. Dans ce travail, nous abordons ce problème à l'aide d'une nouvelle procédure d'optimisation pour l'entraînement end-to-end des réseaux neuronaux sur des tâches FGVC. Notre procédure, appelée Confusion par Paires (Pairwise Confusion, PC), réduit le surapprentissage en introduisant intentionnellement une confusion dans les activations. Avec la régularisation PC, nous obtenons des performances de pointe sur six des ensembles de données FGVC les plus couramment utilisés et démontrons une capacité de localisation améliorée. La méthode PC est facile à mettre en œuvre, n'a pas besoin d'un réglage excessif des hyperparamètres pendant l'entraînement, et n'ajoute pas une charge supplémentaire significative lors du temps de test.