HyperAIHyperAI
il y a 16 jours

VisualWordGrid : Extraction d'information à partir de documents numérisés par une approche multimodale

Mohamed Kerroumi, Othmane Sayem, Aymen Shabou
VisualWordGrid : Extraction d'information à partir de documents numérisés par une approche multimodale
Résumé

Nous introduisons une nouvelle approche de représentation des documents numérisés destinée à l’extraction de champs. Elle permet de coder simultanément les informations textuelles, visuelles et de mise en page dans un tenseur à trois axes, utilisé comme entrée d’un modèle de segmentation. Nous améliorons les modèles récents Chargrid et Wordgrid \cite{chargrid} de plusieurs manières : tout d’abord en intégrant le modalité visuelle, puis en renforçant leur robustesse face à des jeux de données de petite taille tout en préservant un temps de déduction faible. Notre approche est évaluée sur des jeux de données publics et privés d’images de documents, et obtient des performances supérieures par rapport aux méthodes de pointe récentes.