Réduire l'Erreur de Moitié : Étude des Très Profonds Réseaux de Neurones Convolutifs et des Stratégies d'Entraînement Avancées pour la Classification d'Images de Documents

Nous présentons une enquête exhaustive sur les architectures, algorithmes et stratégies de Deep Learning récentes pour la tâche de classification d'images de documents, afin de réduire l'erreur de plus de moitié. Les approches existantes, telles que le DeepDocClassifier, appliquent des architectures standards de Réseaux Convolutifs avec un transfert d'apprentissage à partir du domaine de reconnaissance d'objets. La contribution de cet article est triple : premièrement, il examine les architectures neuronales très profondes (GoogLeNet, VGG, ResNet) récemment introduites en utilisant le transfert d'apprentissage (à partir d'images réelles). Deuxièmement, il propose le transfert d'apprentissage à partir d'un ensemble massif d'images de documents, soit 400 000 documents. Troisièmement, il analyse l'impact de la quantité de données d'entraînement (images de documents) et d'autres paramètres sur les capacités de classification. Nous utilisons deux jeux de données, Tobacco-3482 et le jeu de données à grande échelle RVL-CDIP. Nous obtenons une précision de 91,13 % pour le jeu de données Tobacco-3482, alors que les approches antérieures n'atteignaient que 77,6 %. Ainsi, une réduction relative de l'erreur supérieure à 60 % est réalisée. Pour le grand jeu de données RVL-CDIP, une précision de 90,97 % est atteinte, correspondant à une réduction relative de l'erreur de 11,5 %.