
이미지 분석 작업에서 신경망의 일반화 능력 향상은 파라미터 수와 층의 수, 데이터셋 크기, 학습 및 테스트 계산량, GPU 메모리 사용량의 증가를 수반해 왔다. 본 연구에서는 최신 트랜스포머와 합성곱 신경망(CNN)과 비견되는 일반화 성능을 달성하면서도 훨씬 적은 자원을 요구하는 새로운 아키텍처인 WaveMix-Lite를 제안한다. WaveMix-Lite는 2차원 이산 웨이블릿 변환(2D-discrete wavelet transform)을 활용하여 픽셀 간의 공간 정보를 효율적으로 혼합한다. 이 아키텍처는 이미지 분류 및 세그멘테이션과 같은 다양한 비전 작업에 적용 가능하며, 트랜스포머나 CNN과 달리 구조적 변경 없이도 유연하고 확장 가능한 프레임워크로 기능할 수 있다. 단일 GPU에서 학습함에도 불구하고 여러 정확도 벤치마크에서 최상의 성능을 달성하거나 이를 초과한다. 예를 들어, 다섯 개의 EMNIST 데이터셋에서 최신 기술 수준의 정확도를 달성하였으며, ImageNet-1K 및 Places-365에서 CNN과 트랜스포머를 모두 능가하였다. 또한 Cityscapes 검증 세트에서 mIoU 77%의 성능을 기록했으며, 비교 가능한 CNN 또는 트랜스포머보다 파라미터 수는 5분의 1 미만, GPU 메모리 사용량은 절반 이하로 절약하였다. 실험 결과에 따르면, 기존의 합성곱 구조는 이미지의 이동 불변성(shift-invariance) 특성을 활용하지만, 웨이블릿 변환과 같은 새로운 유형의 레이어는 이미지의 척도 불변성(scale-invariance) 및 객체의 유한한 공간적 범위(finite spatial extents)와 같은 추가적인 특성을 활용할 수 있음을 보여준다.