11일 전

영역 기반 그래프 신경망을 이용한 효율적인 문서 이미지 분류

Jaya Krishna Mandivarapu, Eric Bunch, Qian You, Glenn Fung
영역 기반 그래프 신경망을 이용한 효율적인 문서 이미지 분류
초록

문서 이미지 분류는 다양한 산업 분야의 기업 응용 프로그램에서 상용화될 수 있다는 점에서 여전히 인기 있는 연구 분야로 남아 있다. 최근 대규모 사전 훈련된 컴퓨터 비전 및 언어 모델, 그래프 신경망(GNN)의 발전으로 문서 이미지 분류에 활용할 수 있는 도구가 크게 증가하였다. 그러나 대규모 사전 훈련 모델을 사용하는 경우 일반적으로 막대한 계산 자원이 필요하며, 이는 자동 문서 이미지 분류의 비용 절감 효과를 상쇄할 수 있다. 본 논문에서는 문서의 텍스트, 시각적 정보 및 레이아웃 정보를 통합하여 사용하는 그래프 컨볼루션 신경망(GCN) 기반의 효율적인 문서 이미지 분류 프레임워크를 제안한다. 제안한 알고리즘은 공개된 데이터셋과 실제 보험 문서 분류 데이터셋 모두에서 여러 최첨단 비전 및 언어 모델과 철저히 비교 평가되었다. 공개 데이터셋과 실세계 데이터셋에서의 실험 결과는, 제안한 방법이 거의 최고 수준의 성능(SOTA)에 근접하면서도 모델 훈련 및 추론에 훨씬 적은 계산 자원과 시간을 요구함을 보여주었다. 이는 특히 기업 응용 프로그램에서의 확장 가능한 배포 환경에서 더 우수한 비용 효율성을 제공함을 의미한다. 결과적으로 제안한 알고리즘이 SOTA 수준에 매우 근접한 분류 성능을 달성할 수 있음을 확인하였다. 또한 제안 방법과 기존 기준 모델 간의 계산 자원 소비량, 모델 크기, 훈련 및 추론 시간에 대한 포괄적인 비교를 제공하였으며, 본 방법과 다른 기준 모델의 이미지당 처리 비용을 명확히 분석하였다.

영역 기반 그래프 신경망을 이용한 효율적인 문서 이미지 분류 | 최신 연구 논문 | HyperAI초신경