HyperAIHyperAI
il y a 2 mois

CISOL : Un jeu de données ouvert et extensible pour la reconnaissance de la structure des tableaux dans l'industrie de la construction

Tschirschwitz, David ; Rodehorst, Volker
CISOL : Un jeu de données ouvert et extensible pour la reconnaissance de la structure des tableaux dans l'industrie de la construction
Résumé

La reproductibilité et la réplicabilité sont des piliers essentiels de la recherche empirique, en particulier dans le domaine de l'apprentissage automatique, où elles dépendent non seulement de la disponibilité des modèles, mais aussi des jeux de données utilisés pour les entraîner et les évaluer. Dans cet article, nous présentons le jeu de données Construction Industry Steel Ordering List (CISOL), qui a été développé avec un accent particulier sur la transparence afin d'assurer la reproductibilité, la réplicabilité et l'extensibilité. CISOL offre une nouvelle ressource précieuse pour la recherche et souligne l'importance de disposer de jeux de données diversifiés, même dans des domaines d'application spécifiques tels que l'extraction de tableaux en génie civil.Ce qui distingue CISOL, c'est qu'il contient des documents d'ingénierie civile du monde réel provenant de l'industrie, constituant ainsi une contribution distinctive au domaine. Le jeu de données comprend plus de 120 000 instances annotées dans plus de 800 images de documents, ce qui en fait un jeu de données de taille moyenne offrant une base solide pour les tâches de reconnaissance (TSR) et détection (TD) des structures tabulaires.Les résultats des tests sur les benchmarks montrent que CISOL atteint un [email protected]:0.95:0.05 de 67,22 % en utilisant le modèle YOLOv8, surpassant ainsi le modèle TATR spécifique à la TSR. Cela met en lumière l'efficacité de CISOL comme benchmark pour progresser dans la TSR, notamment dans des domaines spécialisés.

CISOL : Un jeu de données ouvert et extensible pour la reconnaissance de la structure des tableaux dans l'industrie de la construction | Articles de recherche récents | HyperAI