Réflexion sur les réseaux de neurones récurrents et autres améliorations pour la classification d'images

Au fil de l’histoire longue de l’apprentissage automatique, qui remonte à plusieurs décennies, les réseaux de neurones récurrents (RNN) ont principalement été utilisés pour traiter des données séquentielles et des séries temporelles, généralement à une dimension (1D). Même dans certaines études rares portant sur des images 2D, ces réseaux sont employés uniquement pour apprendre et générer des données de manière séquentielle, et non pour des tâches de reconnaissance d’images. Dans cette étude, nous proposons d’intégrer un RNN en tant que couche supplémentaire lors de la conception de modèles de reconnaissance d’images. Nous développons également des ensembles multimodèles end-to-end capables de produire des prédictions expertes à partir de plusieurs modèles. En outre, nous étendons la stratégie d’entraînement afin que notre modèle atteigne des performances comparables aux meilleurs modèles existants, et même égales aux modèles d’état de l’art sur plusieurs jeux de données exigeants (par exemple, SVHN (0,99), Cifar-100 (0,9027) et Cifar-10 (0,9852)). De plus, notre modèle établit un nouveau record sur le jeu de données Surrey (0,949). Le code source des méthodes présentées dans cet article est disponible à l’adresse suivante : https://github.com/leonlha/e2e-3m et http://nguyenhuuphong.me.