Un modèle d'apprentissage multi-tâches de bout en bout pour la reconnaissance de tableaux basée sur des images

La reconnaissance de tableaux basée sur des images est une tâche complexe en raison de la diversité des styles de tableaux et de la complexité de leurs structures. La plupart des méthodes précédentes se concentrent sur une approche non intégrée (end-to-end) qui divise le problème en deux sous-problèmes distincts : la reconnaissance de la structure du tableau et la reconnaissance du contenu des cellules, puis tente de résoudre chaque sous-problème indépendamment à l'aide de deux systèmes séparés. Dans cet article, nous proposons un modèle d'apprentissage multitâche intégré pour la reconnaissance de tableaux basée sur des images. Le modèle proposé comprend un encodeur partagé, un décodeur partagé et trois décodeurs distincts utilisés pour apprendre les trois sous-tâches de reconnaissance de tableaux : la reconnaissance de la structure du tableau, la détection des cellules et la reconnaissance du contenu des cellules. L'ensemble du système peut être facilement entraîné et inféré selon une approche intégrée. Dans les expériences, nous évaluons les performances du modèle proposé sur deux grands ensembles de données : FinTabNet et PubTabNet. Les résultats expérimentaux montrent que le modèle proposé surpasses les méthodes les plus avancées dans tous les ensembles de données de référence.