
摘要
可重复性和可复制性是实证研究的关键支柱,特别是在机器学习领域,它们不仅依赖于模型的可用性,还依赖于用于训练和评估这些模型的数据集。本文介绍了建筑行业钢材订单列表(CISOL)数据集,该数据集在开发过程中注重透明度,以确保可重复性、可复制性和可扩展性。CISOL 提供了一个宝贵的新研究资源,并强调了拥有多样化数据集的重要性,即使是在诸如土木工程表格提取这样的特定应用领域。CISOL 的独特之处在于它包含来自行业的实际土木工程文件,这使其成为该领域的独特贡献。该数据集包含超过 120,000 个标注实例,涉及 800 多张文档图像,定位为中等规模的数据集,为表格结构识别(TSR)和表格检测(TD)任务提供了坚实的基础。基准测试结果显示,使用 YOLOv8 模型时,CISOL 在 [email protected]:0.95:0.05 指标上达到了 67.22 的成绩,优于专门针对 TSR 的 TATR 模型。这突显了 CISOL 作为推动 TSR 发展的基准数据集的有效性,尤其是在专业领域内。