11일 전
영역 기반 그래프 신경망을 이용한 효율적인 문서 이미지 분류
Jaya Krishna Mandivarapu, Eric Bunch, Qian You, Glenn Fung

초록
문서 이미지 분류는 다양한 산업 분야의 기업 응용 프로그램에서 상용화될 수 있다는 점에서 여전히 인기 있는 연구 분야로 남아 있다. 최근 대규모 사전 훈련된 컴퓨터 비전 및 언어 모델, 그래프 신경망(GNN)의 발전으로 문서 이미지 분류에 활용할 수 있는 도구가 크게 증가하였다. 그러나 대규모 사전 훈련 모델을 사용하는 경우 일반적으로 막대한 계산 자원이 필요하며, 이는 자동 문서 이미지 분류의 비용 절감 효과를 상쇄할 수 있다. 본 논문에서는 문서의 텍스트, 시각적 정보 및 레이아웃 정보를 통합하여 사용하는 그래프 컨볼루션 신경망(GCN) 기반의 효율적인 문서 이미지 분류 프레임워크를 제안한다. 제안한 알고리즘은 공개된 데이터셋과 실제 보험 문서 분류 데이터셋 모두에서 여러 최첨단 비전 및 언어 모델과 철저히 비교 평가되었다. 공개 데이터셋과 실세계 데이터셋에서의 실험 결과는, 제안한 방법이 거의 최고 수준의 성능(SOTA)에 근접하면서도 모델 훈련 및 추론에 훨씬 적은 계산 자원과 시간을 요구함을 보여주었다. 이는 특히 기업 응용 프로그램에서의 확장 가능한 배포 환경에서 더 우수한 비용 효율성을 제공함을 의미한다. 결과적으로 제안한 알고리즘이 SOTA 수준에 매우 근접한 분류 성능을 달성할 수 있음을 확인하였다. 또한 제안 방법과 기존 기준 모델 간의 계산 자원 소비량, 모델 크기, 훈련 및 추론 시간에 대한 포괄적인 비교를 제공하였으며, 본 방법과 다른 기준 모델의 이미지당 처리 비용을 명확히 분석하였다.