3달 전

문서 이미지 분류를 위한 시각적 및 텍스처적 딥 특성 융합

{Marçal Rusiñol, Mickael Coustaty, Ziheng Ming, Souhail Bakkali}
문서 이미지 분류를 위한 시각적 및 텍스처적 딥 특성 융합
초록

최근 몇 년간 텍스트 문서 이미지 분류 주제에 대한 연구가 광범위하게 진행되어 왔다. 대부분의 최신 접근 방식은 문서 이미지의 시각적 특징과 해당 텍스트 내용을 함께 학습하는 방식으로 이 작업을 수행해왔다. 문서 이미지에는 다양한 구조가 존재하므로, 텍스트 콘텐츠로부터 의미 정보를 추출하는 것은 문서 검색, 정보 추출, 텍스트 분류와 같은 문서 이미지 처리 작업에 유익하다. 본 연구에서는 문서 이미지 분류 작업을 수행하기 위해 이중 스트림 신경망 아키텍처를 제안한다. 또한, 문서 이미지에서 시각적 특징과 텍스트 특징을 동시에 추출하기 위해 현재 널리 사용되는 신경망 구조 및 단어 임베딩 기법들을 철저히 조사하였다. 더불어, 이미지 특징과 텍스트 임베딩을 결합하는 공동 특징 학습 방식을 후기 융합 방법론으로 제안하였다. 이론적 분석과 실험 결과를 통해 제안하는 공동 특징 학습 방법이 단일 모달리티 대비 우수함을 입증하였다. 본 공동 학습 방식은 대규모 RVL-CDIP 데이터셋에서 분류 정확도 97.05%를 달성하며 기존 최고 성능 결과를 초월하였다.