DocXClassifier: 문서 이미지 분류를 위한 고성능 해석 가능한 딥 네트워크
컨볼루셔널 신경망(Convolutional Neural Networks, ConvNets)은 문서 이미지 분류 분야에서 광범위하게 연구되어 왔으며, 단모달 이미지 기반 문서 분류에서 뛰어난 성능을 보인 것으로 잘 알려져 있다. 그러나 최근에는 문서의 시각적 특징과 텍스트적 특징을 동시에 학습하는 다모달 접근 방식으로의 급격한 전환이 이루어지고 있다. 이러한 추세는 분류 성능의 큰 진전을 이끌어냈지만, 동시에 순수한 ConvNets 기반 접근 방식의 개선에 대한 관심이 줄어들고 있는 문제를 야기하고 있다. 이는 바람직하지 않다. 왜냐하면 여전히 많은 다모달 접근 방식들이 ConvNets를 시각적 백본(visual backbone)으로 사용하고 있기 때문에, ConvNets 자체의 성능 향상은 이러한 다모달 모델의 전반적인 성능 향상에 핵심적인 역할을 하기 때문이다. 본 논문에서는 최신 모델 설계 패턴과 현대적 데이터 증강 기법 및 학습 전략을 결합한 ConvNet 기반의 새로운 접근 방식인 DocXClassifier를 제안한다. 이 모델은 이미지 기반 문서 분류에서 상당한 성능 향상을 달성할 뿐만 아니라, 최근 제안된 일부 다모달 접근 방식을 능가하는 성능을 보였다. 또한 DocXClassifier는 트랜스포머(Transformer)와 유사한 주의(attention) 맵을 생성할 수 있어, 기존의 이미지 기반 분류 모델에서 찾아볼 수 없었던 내재적 해석 가능성(inherent interpretability)을 갖추고 있다. 제안된 방법은 RVL-CDIP와 Tobacco3482라는 두 가지 대표적인 문서 데이터셋에서 이미지 기반 분류 성능의 새로운 최고 기록을 수립하였으며, 각각 top-1 분류 정확도 94.17%, 95.57%를 기록하였다. 특히 RVL-CDIP에서의 전이 학습(transfer learning) 없이도 Tobacco3482에서 이미지 기반 분류 정확도 90.14%를 달성하여, 기존의 최고 기록을 다시 한 번 경신하였다. 마지막으로, 기존 대비 훨씬 풍부한 시각적 특징을 제공할 수 있기 때문에, 본 연구에서 제안한 모델은 향후 다모달 접근 방식의 강력한 시각적 백본으로 활용될 수 있을 것으로 기대된다.