2달 전
문서 레이아웃 분석을 위한 그래픽 접근법
Wang, Jilin ; Krumdick, Michael ; Tong, Baojia ; Halim, Hamima ; Sokolov, Maxim ; Barda, Vadym ; Vendryes, Delphine ; Tanner, Chris

초록
문서 레이아웃 분석(DLA)은 문서 내에서 서로 다른 의미적 내용을 감지하고 이를 적절한 범주(예: 텍스트, 제목, 그림)로 올바르게 분류하는 작업입니다. DLA 파이프라인은 사용자가 문서를 구조화된 기계 판독 가능한 형식으로 변환하여 다양한 유용한 후속 작업에 활용할 수 있도록 합니다. 대부분의 기존 최신(DLA) 모델들은 문서를 이미지로 표현하며, 전자적으로 생성된 PDF에서 제공되는 풍부한 메타데이터를 무시합니다. 이러한 메타데이터를 직접 활용하여, 각 PDF 페이지를 구조화된 그래프로 표현하고 DLA 문제를 그래프 세그멘테이션 및 분류 문제로 접근하였습니다. 우리는 그래프 기반 레이아웃 분석 모델(GLAM)을 소개하는데, 이는 두 가지 어려운 DLA 데이터셋에서 기존 최신 모델들과 경쟁력 있는 가벼운 그래프 신경망입니다. 특히, 4백만 개 매개변수를 가진 GLAM 모델은 DocLayNet 데이터셋의 11개 클래스 중 5개에서 1억 4천만 개 이상의 매개변수를 가진 선도적인 컴퓨터 비전 기반 모델을 능가합니다. 이 두 모델의 간단한 앙상블은 DocLayNet에서 새로운 최신 성능을 달성하며, mAP(평균 정밀도)가 76.8에서 80.8로 증가하였습니다. 총합적으로 GLAM은 최신 모델들보다 5배 이상 효율적이어서 DLA 작업에 있어 유리한 엔지니어링 선택안이 됩니다.