Conviformers: 컨볼루션ally 지도된 비전 트랜스포머

현재 비전 트랜스포머(Vision Transformers, ViT)는 이미지 분류 작업에서 사실상의 표준 선택지로 자리 잡고 있다. 이미지 분류 작업은 크게 세부적인 분류(fine-grained)와 거시적인 분류(coarse-grained)로 나뉘며, 세부적인 분류의 경우 하위 클래스 간 높은 유사성으로 인해 미세한 차이를 식별하는 것이 필수적이다. 그러나 비전 트랜스포머의 메모리 및 계산 비용을 절감하기 위해 이미지를 저해상도로 축소할수록 이러한 미세한 차이가 소실되는 경향이 있다. 본 연구에서는 박물관 표본(허바리움 시트)을 활용한 식물의 세부 분류 시스템을 개발하기 위한 핵심 구성 요소에 대해 심층적인 분석을 수행한다. 광범위한 실험 분석을 통해 현대 신경망이 고차원 이미지를 처리할 수 있는 능력과 더 나은 증강 기법의 필요성을 확인하였다. 또한, 기존의 인기 있는 비전 트랜스포머(ConViT)와 달리 메모리 및 계산 비용이 급격히 증가하지 않으면서도 고해상도 이미지를 처리할 수 있는 새로운 컨볼루션 트랜스포머 아키텍처인 Conviformer를 제안한다. 더불어, 원본 이미지의 종횡비를 유지하면서 보다 정교하게 이미지를 리사이징할 수 있도록 한 새로운 개선된 전처리 기법 PreSizer를 도입하였다. 이 기법은 자연 식물의 분류에 있어 필수적인 요소로 입증되었다. 본 연구에서 제안하는 간단하면서도 효과적인 접근 방식을 통해 Herbarium 202x 및 iNaturalist 2019 데이터셋에서 최고 성능(SoTA)을 달성하였다.