HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la précision et accélération de la classification d'images de documents grâce à des systèmes parallèles

Javier Ferrando Juan Luis Dominguez Jordi Torres Raul Garcia David Garcia Daniel Garrido Jordi Cortada Mateo Valero

Résumé

Ce papier présente une étude démontrant les avantages des modèles EfficientNet par rapport aux réseaux de neurones convolutifs (CNN) plus lourds dans la tâche de classification de documents, un problème fondamental dans le processus de numérisation des institutions. Nous montrons sur le jeu de données RVL-CDIP que l’on peut améliorer les résultats précédents grâce à un modèle bien plus léger, tout en mettant en évidence ses capacités d’apprentissage par transfert sur un jeu de données plus petit et spécifique, tel que Tobacco3482. En outre, nous proposons une architecture d’ensemble capable d’améliorer significativement les performances uniquement à partir d’entrées d’image, en combinant les prédictions du modèle d’image avec celles générées par le modèle BERT à partir du texte extrait par OCR. Nous démontrons également que la taille de lot peut être augmentée efficacement sans compromettre la précision, permettant ainsi d’accélérer le processus d’entraînement grâce à une parallélisation sur plusieurs GPU, réduisant ainsi le temps de calcul nécessaire. Enfin, nous comparons les performances d’entraînement entre les frameworks d’apprentissage profond PyTorch et TensorFlow.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp