2달 전

LayoutReader: 텍스트와 레이아웃의 사전 학습을 통한 읽기 순서 검출

Zilong Wang; Yiheng Xu; Lei Cui; Jingbo Shang; Furu Wei
LayoutReader: 텍스트와 레이아웃의 사전 학습을 통한 읽기 순서 검출
초록

문서의 시각적 요소를 이해하는 데 있어 읽기 순서 검출은 핵심적인 역할을 합니다(예: 영수증 및 양식). 그러나 기존 연구에서는 충분히 큰 데이터셋을 주석화하는 것이 너무 번거로워 고급 딥러닝 모델을 활용하지 못했습니다. 우리는 WORD 문서의 XML 메타데이터에 읽기 순서가 내재되어 있다는 점을 관찰하였으며, 동시에 WORD 문서를 PDF나 이미지로 쉽게 변환할 수 있음을 확인하였습니다. 따라서 자동화된 방식으로 ReadingBank라는 벤치마크 데이터셋을 구축하였습니다. 이 데이터셋은 500,000개의 문서 이미지를 포함하며, 다양한 유형의 문서에서 읽기 순서, 텍스트 및 레이아웃 정보를 제공합니다. 이 최초의 대규모 데이터셋은 읽기 순서 검출을 위한 딥뉴럴네트워크의 잠재력을 발휘하게 합니다. 특히, 우리가 제안한 LayoutReader는 seq2seq 모델을 사용하여 읽기 순서 예측에 필요한 텍스트와 레이아웃 정보를 포착합니다. 실험 결과, 이 모델은 읽기 순서 검출에서 거의 완벽한 성능을 보였으며, 오픈 소스 및 상용 OCR 엔진들의 결과에서 텍스트 줄 정렬을 크게 개선했습니다. 우리는 데이터셋과 모델을 \url{https://aka.ms/layoutreader}에서 공개할 계획입니다.

LayoutReader: 텍스트와 레이아웃의 사전 학습을 통한 읽기 순서 검출 | 최신 연구 논문 | HyperAI초신경