
초록
재현성과 재복제성은 경험적 연구의 중요한 기둥이며, 특히 머신 러닝 분야에서는 모델의 이용 가능성뿐만 아니라 이러한 모델을 훈련하고 평가하는 데 사용되는 데이터셋에 대한 의존성이 크다. 본 논문에서는 재현성, 재복제성, 그리고 확장성을 보장하기 위해 투명성을 중점으로 개발된 건설업 철강 주문 목록(CISOL) 데이터셋을 소개한다. CISOL은 새로운 연구 자원을 제공하며, 토목 공학에서 표 추출과 같은 특화된 응용 영역에서도 다양성 있는 데이터셋의 중요성을 강조한다. CISOL은 산업계에서 실제 토목 공학 문서를 포함하고 있어 독특한 기여를 한다. 이 데이터셋은 800개 이상의 문서 이미지에 120,000개 이상의 주석이 달린 인스턴스를 포함하여, 중형 규모의 데이터셋으로 표 구조 인식(TSR) 및 표 검출(TD) 작업에 견고한 기반을 제공한다. 벤치마킹 결과는 CISOL이 YOLOv8 모델을 사용하여 67.22 [email protected]:0.95:0.05를 달성함을 보여주며, TSR 전용 TATR 모델을 능가하였다. 이는 특히 특화된 영역에서 TSR 발전을 위한 벤치마크로서 CISOL의 효과성을 강조한다.