비전을 위한 MetaFormer 베이스라인

MetaFormer은 Transformer 아키텍처의 추상화된 형태로, 경쟁적인 성능을 달성하는 데 중요한 역할을 한다는 것이 확인되었다. 본 논문에서는 토큰 믹서(토큰 혼합기) 설계에 집중하지 않고도 MetaFormer의 잠재력을 추가로 탐구한다. 우리는 MetaFormer 아키텍처 아래에서 가장 기본적이거나 일반적인 믹서를 사용하는 여러 기준 모델을 제안하고, 다음과 같은 관찰 결과를 요약한다: (1) MetaFormer은 안정적인 성능 하한선을 보장한다. 단순히 항등 맵핑(identity mapping)을 토큰 믹서로 채택한 MetaFormer 모델, 즉 IdentityFormer은 ImageNet-1K에서 80% 이상의 정확도를 달성한다. (2) MetaFormer은 임의의 토큰 믹서와도 잘 작동한다. 토큰 믹서로 무작위 행렬을 사용해 토큰을 혼합하더라도, 그 결과로 도출된 모델인 RandFormer은 81% 이상의 정확도를 기록하며 IdentityFormer을 상회한다. 새로운 토큰 믹서를 도입하더라도 MetaFormer의 성능 안정성을 확신할 수 있다. (3) MetaFormer은 쉽게 최고 수준의 성능을 제공한다. 단지 5년 전에 등장한 전통적인 토큰 믹서만을 사용해도, MetaFormer에서 도출된 모델들은 이미 최신 기준을 초월한다. (a) ConvFormer은 ConvNeXt를 능가한다. 일반적인 딥워이즈 분리형 컨볼루션을 토큰 믹서로 사용한 모델인 ConvFormer은 순수한 CNN 구조로 간주될 수 있으며, 강력한 CNN 모델인 ConvNeXt를 상회한다. (b) CAFormer은 ImageNet-1K에서 새로운 기록을 수립한다. 하위 단계에서는 딥워이즈 분리형 컨볼루션을, 상위 단계에서는 일반적인 자기 주의(self-attention)를 토큰 믹서로 적용한 모델인 CAFormer은, 외부 데이터나 디스틸레이션 없이 정상적인 지도 학습만으로 224×224 해상도에서 85.5%의 정확도를 달성하며 ImageNet-1K에서 새로운 기록을 세웠다. MetaFormer을 탐구하는 과정에서, 새로운 활성화 함수인 StarReLU가 GELU 대비 활성화 연산에 필요한 FLOPs를 71% 감소시키면서도 더 뛰어난 성능을 달성함을 발견했다. 우리는 StarReLU가 MetaFormer 유사 모델뿐 아니라 다른 신경망 구조에서도 큰 잠재력을 지닐 것으로 기대한다.