CycleMLP: 밀집 예측을 위한 MLP 유사 아키텍처

이 논문은 시각 인식 및 밀도 예측에 유용한 유연한 기반 구조로 사용할 수 있는 간단한 MLP 유사 아키텍처인 CycleMLP를 제안한다. 기존의 최신 MLP 아키텍처인 MLP-Mixer, ResMLP, gMLP와 달리, 이미지 크기에 따라 아키텍처가 달라지는 문제로 객체 탐지 및 세그멘테이션 작업에 적합하지 않은 점을 고려할 때, CycleMLP는 다음과 같은 두 가지 장점을 갖는다. (1) 다양한 이미지 크기에 대응할 수 있다. (2) 국소 윈도우를 활용함으로써 이미지 크기에 대해 선형 시간 복잡도(O(N))를 달성한다. 반면 기존의 MLP는 전역 공간적 연결 구조로 인해 O(N²)의 계산 복잡도를 가지며, 이는 대규모 이미지 처리에 있어 효율성 문제를 야기한다. 본 연구에서는 기존의 MLP 모델과 비교해 더 적은 파라미터 수와 FLOPs를 사용하면서도, 기존의 MLP 모델뿐 아니라 최첨단의 Transformer 기반 모델인 Swin Transformer를 능가하는 성능을 보이는 모델군을 구축하였다. 이는 MLP 유사 모델의 적용 가능성을 확장하며, 밀도 예측 작업에 있어 유용한 기반 구조로 자리매김하게 되었다. CycleMLP는 객체 탐지, 인스턴스 세그멘테이션, 세미틱 세그멘테이션 등 다양한 작업에서 경쟁력 있는 성능을 보였다. 특히, ADE20K 데이터셋에서 CycleMLP-Tiny는 Swin-Tiny보다 1.3% 높은 mIoU 성능을 기록하면서도 더 낮은 FLOPs를 사용하였다. 또한, ImageNet-C 데이터셋에서의 제로샷 로버스트성(Zero-shot Robustness)에서도 뛰어난 성능을 보였다. 코드는 https://github.com/ShoufaChen/CycleMLP 에서 공개되어 있다.