7일 전
디지털 인문학에서 복잡한 문서 레이아웃을 분석하기 위한 데이터셋 및 Krippendorff의 알파를 활용한 평가
{Volker Rodehorst, Benno Stein, Franziska Klemstein, David Tschirschwitz}

초록
우리는 역사적 문서의 문서 레이아웃 분석을 위한 고품질의 도메인 특화 데이터셋을 소개한다. 이 데이터셋은 역사적 레이아웃 구조에 기반한 19개의 클래스를 갖춘 인스턴스 세그멘테이션 기준값을 제공한다. 이러한 구조는 (a) 출판 생산 과정과 각각의 장르(생명과학, 건축, 미술, 장식 예술 등)에서 비롯되며, (b) 특정 텍스트 유형(예: 독립서, 산업 잡지, 그림이 포함된 잡지)에서 유래한다. 총 52,000개 이상의 인스턴스가 전문가들에 의해 주석화되어 있으며, 이는 매우 풍부한 데이터 기반을 제공한다. 기준 모델로서 잘 알려진 Mask R-CNN을 사용하여 실험을 수행하였으며, 최신 기술인 VSR 모델과 비교 분석하였다. 자연어 처리(NLP) 분야의 평가 관행을 영감으로 삼아, 주석 일관성 평가를 위한 새로운 방법을 개발하였다. 본 방법은 ‘다중 평가자 간 일관성’을 측정하는 데 사용되는 Krippendorff의 알파(K-α)를 기반으로 하며, 특히 주석을 다중 그래프(multipartite graph) 구조로 간주함으로써 평가자 수가 변할 수 있는 상황에서도 일관성을 평가할 수 있도록 적응된 K-α의 변형을 제안한다. 이 방법은 평가의 엄격성에 따라 조정 가능하며, 2차원 및 3차원 환경에서 모두 활용 가능하며, 의미론적 세그멘테이션, 인스턴스 세그멘테이션, 3차원 포인트 클라우드 세그멘테이션 등 다양한 작업에 적용할 수 있다.