2달 전

U-DIADS-Bib: 고문서 레이아웃 분석을 위한 완전하고 소량 샘플 정밀 픽셀 데이터셋

Zottin, Silvia ; De Nardin, Axel ; Colombi, Emanuela ; Piciarelli, Claudio ; Pavan, Filippo ; Foresti, Gian Luca
U-DIADS-Bib: 고문서 레이아웃 분석을 위한 완전하고 소량 샘플 정밀 픽셀 데이터셋
초록

문서 레이아웃 분석은 문서 페이지 내부의 다양한 의미 영역을 식별하는 작업으로, 컴퓨터 과학자들과 인문학자들에게 큰 관심의 대상입니다. 이는 전자의 경우 추가 분석 작업을 위한 기본 단계를 나타내며, 후자의 경우 문서 연구를 개선하고 용이하게 하는 강력한 도구로 작용하기 때문입니다. 그러나 현재 문헌에 제시된 많은 연구, 특히 사용 가능한 데이터셋의 경우, 두 세계의 요구를 충족시키지 못하고 있으며, 특히 컴퓨터 과학 측면의 필요성과 일반적인 관행에 치우쳐 있어 인문학의 실제 요구를 대표하지 못하는 자원들이 많이 있습니다. 이러한 이유로 본 논문에서는 컴퓨터 비전과 인문학 분야 전문가들 간의 긴밀한 협력을 통해 개발된 새로운, 픽셀 정확도, 중복되지 않고 노이즈 없는 문서 레이아웃 분석 데이터셋인 U-DIADS-Bib를 소개합니다. 또한 시간 소모적인 수작업 주석화 과정의 부담을 완화하기 위해 새로운 컴퓨터 보조 세그멘테이션 파이프라인을 제안합니다. 이는 지상 진리 세그멘테이션 맵 생성에 필요한 과정입니다. 마지막으로, 실제 시나리오에서 대량의 세그멘테이션을 수집하는 것이 항상 가능하지 않은 상황에서 더 효과적으로 활용할 수 있도록 샘플 수가 최소한인 모델과 솔루션 개발을 장려하기 위해 표준화된 소수 샘플 버전 데이터셋(U-DIADS-BibFS)을 제시합니다.