17일 전

UPANets: 보편적 픽셀 주의력 네트워크로부터 학습하기

Ching-Hsun Tseng, Shin-Jye Lee, Jia-Nan Feng, Shengzhong Mao, Yu-Ping Wu, Jia-Yu Shang, Mou-Chung Tseng, Xiao-Jun Zeng
UPANets: 보편적 픽셀 주의력 네트워크로부터 학습하기
초록

이미지 분류 분야에서 스트라이드 연결(스킵 커넥션)과 밀집 연결 기반의 네트워크가 대부분의 리더보드를 장악해 왔다. 최근 자연어 처리 분야에서 멀티헤드 어텐션의 성공적인 개발을 계기로, 지금은 트랜스포머 기반 모델을 사용할 것인지, 아니면 어텐션을 결합한 하이브리드 CNN을 사용할 것인지의 시대에 접어들었다. 그러나 트랜스포머 기반 모델은 훈련에 막대한 자원을 필요로 하며, 반면 하이브리드 CNN과 어텐션의 조합은 이 방향에서 이상적인 균형을 이루고 있다. 본 연구에서는 CNN이 전역적 정보와 국소적 정보를 동시에 효과적으로 처리할 수 있도록, 채널별 어텐션을 하이브리드 스킵-밀집 연결 구조와 결합한 UPANets를 제안한다. 또한 극한 연결(Extreme-connection) 구조를 통해 UPANets는 더 매끄러운 손실 경관(loss landscape)을 가지며, 뛰어난 안정성을 확보하였다. 실험 결과, UPANets는 Cifar-10에서 96.47%, Cifar-100에서 80.29%, Tiny ImageNet에서 67.67%의 정확도를 기록하며, 대부분의 잘 알려진 주요 SOTA(SOTA: State-of-the-art) 모델들을 넘어서는 성능을 보였다. 특히 중요한 점은 이러한 뛰어난 성능에도 불구하고 높은 파라미터 효율성을 가지며, 단 하나의 고객 기반 GPU에서만 훈련된 점이다. UPANets의 구현 코드는 https://github.com/hanktseng131415go/UPANets 에 공개되어 있다.