EAML: 문서 이미지 분류를 위한 앙상블 자기 주의 기반 상호 학습 네트워크

최근 들어, 다양한 문서 이해 작업, 예를 들어 문서 이미지 분류 및 문서 검색 등에서 복잡한 심층 신경망(DNN)에 대한 관심이 크게 증가하고 있다. 많은 문서 유형은 고유한 시각적 스타일을 지니고 있어, 단순히 심층 CNN을 이용해 문서 이미지의 시각적 특징만을 학습하는 방식은 클래스 간 구분 능력이 낮고, 클래스 내부의 구조적 변동성이 높다는 문제에 직면하고 있다. 한편, 문서 이미지 내에서 해당 시각적 특성과 함께 텍스트 수준의 이해를 공동으로 학습함으로써 분류 정확도 측면에서 상당한 성능 향상을 달성하고 있다. 본 논문에서는 앙상블 트레이너블 네트워크 내에서 블록으로 작동하는 자기 주의(self-attention) 기반 융합 모듈을 설계하였다. 이 모듈은 학습 과정 전반에 걸쳐 이미지 및 텍스트 모달리티의 구분 능력을 동시에 학습할 수 있도록 한다. 또한, 학습 과정 중 이미지 모달리티와 텍스트 모달리티 간에 긍정적 지식을 전이함으로써 상호 학습(mutual learning)을 유도한다. 이 제약 조건은 기존의 감독 학습 설정에 새로운 정규화 항으로서 절단된 쿨백-라이블러 발산(Truncated-Kullback-Leibler divergence, Tr-KLD-Reg) 손실을 추가함으로써 구현된다. 본 연구가 최초로 자기 주의 기반 융합 모듈과 상호 학습 방식을 결합하여 문서 이미지 분류에 적용한 것으로, 지식의 범위를 고려할 때 최초의 사례이다. 실험 결과는 단일 모달리티와 다중 모달리티 모두에서 제안된 방법의 정확도 측면에서 효과성을 입증하고 있다. 따라서 제안된 앙상블 자기 주의 기반 상호 학습 모델은 기준 데이터셋인 RVL-CDIP 및 Tobacco-3482를 기반으로 한 최신 기술(SOTA) 분류 결과를 모두 초월하는 성능을 보였다.