2달 전

문서 레이아웃 분석을 위한 그래픽 접근법

Wang, Jilin ; Krumdick, Michael ; Tong, Baojia ; Halim, Hamima ; Sokolov, Maxim ; Barda, Vadym ; Vendryes, Delphine ; Tanner, Chris
문서 레이아웃 분석을 위한 그래픽 접근법
초록

문서 레이아웃 분석(DLA)은 문서 내에서 서로 다른 의미적 내용을 감지하고 이를 적절한 범주(예: 텍스트, 제목, 그림)로 올바르게 분류하는 작업입니다. DLA 파이프라인은 사용자가 문서를 구조화된 기계 판독 가능한 형식으로 변환하여 다양한 유용한 후속 작업에 활용할 수 있도록 합니다. 대부분의 기존 최신(DLA) 모델들은 문서를 이미지로 표현하며, 전자적으로 생성된 PDF에서 제공되는 풍부한 메타데이터를 무시합니다. 이러한 메타데이터를 직접 활용하여, 각 PDF 페이지를 구조화된 그래프로 표현하고 DLA 문제를 그래프 세그멘테이션 및 분류 문제로 접근하였습니다. 우리는 그래프 기반 레이아웃 분석 모델(GLAM)을 소개하는데, 이는 두 가지 어려운 DLA 데이터셋에서 기존 최신 모델들과 경쟁력 있는 가벼운 그래프 신경망입니다. 특히, 4백만 개 매개변수를 가진 GLAM 모델은 DocLayNet 데이터셋의 11개 클래스 중 5개에서 1억 4천만 개 이상의 매개변수를 가진 선도적인 컴퓨터 비전 기반 모델을 능가합니다. 이 두 모델의 간단한 앙상블은 DocLayNet에서 새로운 최신 성능을 달성하며, mAP(평균 정밀도)가 76.8에서 80.8로 증가하였습니다. 총합적으로 GLAM은 최신 모델들보다 5배 이상 효율적이어서 DLA 작업에 있어 유리한 엔지니어링 선택안이 됩니다.

문서 레이아웃 분석을 위한 그래픽 접근법 | 최신 연구 논문 | HyperAI초신경