
시각 변환기(Vision Transformers, ViTs)의 인기와 모델 규모가 증가함에 따라, 제한된 계산 자원을 가진 엣지 디바이스에 배포하기 위해 ViT 모델의 효율성 향상과 계산 비용 감소에 대한 관심이 점점 높아지고 있다. 이와 관련하여 이진화(binarization) 기법은 가중치와 활성화 값이 이진 형태일 경우 popcount 연산을 활용함으로써 ViT 모델의 크기와 계산 비용을 크게 줄이는 데 유용할 수 있다. 그러나 이미지넷-1k(ImageNet-1k)과 같이 클래스 수가 많은 데이터셋에서, 기존의 합성곱 신경망(Convolutional Neural Networks, CNNs) 이진화 기법이나 기존의 이진화 방법을 직접 ViT에 적용할 경우, CNN보다 훨씬 큰 성능 저하가 발생하는 문제가 있다. 광범위한 분석을 통해, DeiT과 같은 순수한 이진 ViT 모델이 CNN이 가지는 핵심 아키텍처적 특성(예: 국소성, 계층적 특징 추출 능력 등)을 상당 부분 상실하고 있음을 발견하였다. 이러한 특성들은 이진 CNN이 이진 ViT보다 훨씬 높은 표현 능력을 유지할 수 있게 해주는 요소이다. 따라서 본 연구에서는 CNN 아키텍처의 특징을 영감으로 삼아, 순수한 ViT 아키텍처에 합성곱 연산을 도입하지 않고도 이진 ViT의 표현 능력을 풍부하게 할 수 있는 새로운 구조인 BinaryViT을 제안한다. 이는 토큰 풀링 대신 평균 풀링 레이어 사용, 다중 평균 풀링 브랜치를 포함하는 블록, 각 주요 잔차 연결(Residual Connection) 전에 적용되는 애피니 변환(Affine Transformation), 그리고 피라미드 구조를 포함한다. ImageNet-1k 데이터셋에서 수행된 실험 결과는 이러한 구성 요소들이 순수한 이진 ViT 모델이 이전 최고 성능(SOTA) 이진 CNN 모델과 경쟁 가능한 성능을 달성할 수 있음을 입증한다.