17일 전

적응형 스플릿-퓨전 트랜스포머

Zixuan Su, Hao Zhang, Jingjing Chen, Lei Pang, Chong-Wah Ngo, Yu-Gang Jiang
적응형 스플릿-퓨전 트랜스포머
초록

시각 콘텐츠 이해를 위한 신경망은 최근 기존의 합성곱 신경망(CNN)에서 트랜스포머로 진화하고 있다. 기존의 CNN은 소규모 윈도우 기반의 커널을 활용하여 지역적 특징을 포착하는 데 의존하며, 강력한 국소적 표현 능력을 보여주고 있다. 반면 트랜스포머는 지역 간 장거리 전역적 연결을 구축함으로써 종합적인 학습을 가능하게 한다. 이러한 두 기법의 상호보완적 특성에 영감을 받아, 각각의 장점을 최대한 활용하기 위한 하이브리드 모델 설계에 대한 관심이 증가하고 있다. 그러나 기존의 하이브리드 모델들은 단순히 선형 투영의 근사로 합성곱을 대체하거나, 합성곱 브랜치를 주의(attention) 브랜치와 병렬로 배치하는 수준에 그치며, 국소적/전역적 모델링의 중요성에 대한 고려가 부족하다. 이를 해결하기 위해 우리는 적응형 분할-융합 트랜스포머(Adaptive Split-Fusion Transformer, ASF-former)라는 새로운 하이브리드 모델을 제안한다. 이 모델은 합성곱 브랜치와 주의 브랜치를 적응형 가중치를 통해 다르게 처리한다. 구체적으로, ASF-former 인코더는 특징 채널을 반으로 균등하게 분할하여 이중 경로 입력을 처리한다. 이후 이중 경로의 출력은 시각적 신호로부터 계산된 가중치 스칼라를 사용하여 융합된다. 또한 효율성 측면을 고려하여 합성곱 경로를 효율적으로 설계하였다. ImageNet-1K, CIFAR-10, CIFAR-100과 같은 표준 벤치마크에서 실시한 광범위한 실험 결과에 따르면, 본 연구에서 제안한 ASF-former는 정확도 측면에서 기존의 CNN, 트랜스포머 및 하이브리드 모델들을 모두 상회하며, ImageNet-1K에서 83.9%의 정확도를 달성하였다. 이는 대규모 사전학습 없이도 동일한 조건(12.9G MACs/56.7M 파라미터)에서 성능을 확보한 결과이다. 코드는 다음 주소에서 공개되어 있다: https://github.com/szx503045266/ASF-former.

적응형 스플릿-퓨전 트랜스포머 | 최신 연구 논문 | HyperAI초신경