2달 전

PubLayNet: 문서 레이아웃 분석을 위한 최대 규모의 데이터셋

Xu Zhong; Jianbin Tang; Antonio Jimeno Yepes
PubLayNet: 문서 레이아웃 분석을 위한 최대 규모의 데이터셋
초록

비정형 디지털 문서의 레이아웃을 인식하는 것은 문서를 구조화된 기계 판독 가능한 형식으로 변환하여 후속 응용 프로그램에서 사용하는 중요한 단계입니다. 컴퓨터 비전을 위한 개발된 딥 신경망은 문서 이미지의 레이아웃 분석에 효과적인 방법임이 입증되었습니다. 그러나 현재 공개되어 있는 문서 레이아웃 데이터셋은 확립된 컴퓨터 비전 데이터셋보다 몇 배 작습니다. 모델은 전통적인 컴퓨터 비전 데이터셋에서 사전 학습된 기본 모델로부터 전이 학습을 통해 훈련되어야 합니다. 본 논문에서는 PubMed Central에 공개되어 있는 100만 건 이상의 PDF 논문의 XML 표현과 내용을 자동으로 매칭하여 문서 레이아웃 분석용 PubLayNet 데이터셋을 개발하였습니다. 이 데이터셋의 크기는 확립된 컴퓨터 비전 데이터셋과 유사하며, 36만 건 이상의 문서 이미지를 포함하고 있으며 일반적인 문서 레이아웃 요소가 주석 처리되어 있습니다. 실험 결과, PubLayNet에서 훈련된 딥 신경망은 과학 논문의 레이아웃을 정확히 인식함을 보여주었습니다. 사전 학습된 모델들은 다른 문서 영역에서의 전이 학습에 더 효과적인 기본 모델로도 활용될 수 있었습니다. 우리는 이 데이터셋(https://github.com/ibm-aur-nlp/PubLayNet)을 제공하여 더 발전된 문서 레이아웃 분석 모델의 개발 및 평가를 지원합니다.

PubLayNet: 문서 레이아웃 분석을 위한 최대 규모의 데이터셋 | 최신 연구 논문 | HyperAI초신경