HyperAIHyperAI
il y a 11 jours

Amélioration de la précision et accélération de la classification d'images de documents grâce à des systèmes parallèles

Javier Ferrando, Juan Luis Dominguez, Jordi Torres, Raul Garcia, David Garcia, Daniel Garrido, Jordi Cortada, Mateo Valero
Amélioration de la précision et accélération de la classification d'images de documents grâce à des systèmes parallèles
Résumé

Ce papier présente une étude démontrant les avantages des modèles EfficientNet par rapport aux réseaux de neurones convolutifs (CNN) plus lourds dans la tâche de classification de documents, un problème fondamental dans le processus de numérisation des institutions. Nous montrons sur le jeu de données RVL-CDIP que l’on peut améliorer les résultats précédents grâce à un modèle bien plus léger, tout en mettant en évidence ses capacités d’apprentissage par transfert sur un jeu de données plus petit et spécifique, tel que Tobacco3482. En outre, nous proposons une architecture d’ensemble capable d’améliorer significativement les performances uniquement à partir d’entrées d’image, en combinant les prédictions du modèle d’image avec celles générées par le modèle BERT à partir du texte extrait par OCR. Nous démontrons également que la taille de lot peut être augmentée efficacement sans compromettre la précision, permettant ainsi d’accélérer le processus d’entraînement grâce à une parallélisation sur plusieurs GPU, réduisant ainsi le temps de calcul nécessaire. Enfin, nous comparons les performances d’entraînement entre les frameworks d’apprentissage profond PyTorch et TensorFlow.

Amélioration de la précision et accélération de la classification d'images de documents grâce à des systèmes parallèles | Articles de recherche récents | HyperAI