Amélioration d’images pour la classification d’objets basée sur la combinaison de CNN pré-entraînés et de SVM
Les réseaux de neurones constituent un moyen puissant de classification d’images d’objets. La méthode proposée de classification des catégories d’images d’objets combine des réseaux de neurones convolutifs (CNN) et des machines à vecteurs de support (SVM). Un CNN pré-entraîné, appelé Alex-Net, est utilisé comme extracteur de caractéristiques. Alex-Net est pré-entraîné sur le grand jeu de données d’images d’objets ImageNet. Au lieu de l’entraîner de zéro, Alex-Net, pré-entraîné sur ImageNet, est directement utilisé. Une SVM est employée comme classificateur entraînable. Les vecteurs de caractéristiques extraits par Alex-Net sont transmis à la SVM. Le jeu de données STL-10 est utilisé comme ensemble d’images d’objets. Le nombre de classes est de dix. Les échantillons d’entraînement et de test sont strictement séparés. Les images d’objets STL-10 sont entraînées par la SVM avec une augmentation de données. Nous utilisons une méthode de transformation de motifs basée sur la fonction cosinus. Nous appliquons également d’autres techniques d’augmentation telles que la rotation, la déformation en biais (skewing) et la distorsion élastique. Grâce à la fonction cosinus, les motifs d’origine sont alignés à gauche, à droite, en haut ou en bas. Des alignements centrés et des agrandissements sont également appliqués. Le taux d’erreur sur les tests diminue de 0,435 point de pourcentage, passant de 16,055 % à 15,620 % grâce à l’augmentation par transformation cosinus. En revanche, les autres méthodes d’augmentation — rotation, déformation en biais et distorsion élastique — entraînent une augmentation du taux d’erreur par rapport à la situation sans augmentation. Le nombre de données augmentées est 30 fois supérieur au nombre d’échantillons d’entraînement originaux du jeu STL-10 (5 000 échantillons). Le taux d’erreur expérimental sur les 8 000 images de test du jeu STL-10 atteint 15,620 %, ce qui démontre l’efficacité de l’augmentation d’images pour la classification des catégories d’images.