17일 전

CoAtNet: 모든 데이터 크기에 적합한 컨볼루션과 어텐션의 결합

Zihang Dai, Hanxiao Liu, Quoc V. Le, Mingxing Tan
CoAtNet: 모든 데이터 크기에 적합한 컨볼루션과 어텐션의 결합
초록

Transformer은 컴퓨터 비전 분야에서 점점 더 큰 관심을 끌고 있지만, 여전히 최첨단 컨볼루션 네트워크에 비해 뒤처지고 있다. 본 연구에서는 Transformer가 일반적으로 더 큰 모델 용량을 갖지만, 적절한 인덕티브 바이어스(유도 편향)가 부족함으로 인해 컨볼루션 네트워크보다 일반화 성능이 떨어질 수 있음을 보여준다. 두 아키텍처의 장점을 효과적으로 결합하기 위해, 우리는 두 가지 핵심 통찰을 바탕으로 한 하이브리드 모델인 CoAtNets(발음: '코트 넷스')를 제안한다. 첫째, 간단한 상대적 어텐션(relative attention)을 통해 depthwise 컨볼루션과 자기 어텐션(self-Attention)을 자연스럽게 통합할 수 있다. 둘째, 원칙적으로 컨볼루션 계층과 어텐션 계층을 수직으로 스택하는 방식이 일반화 성능, 모델 용량, 효율성 향상에 놀랍게 효과적임을 확인하였다. 실험 결과, 다양한 데이터셋과 자원 제약 조건 하에서 CoAtNets가 최첨단 성능을 달성함을 입증하였다. 추가 데이터 없이도 CoAtNet은 ImageNet에서 top-1 정확도 86.0%를 달성하였으며, ImageNet-21K의 1300만 장의 이미지로 사전 학습한 경우, top-1 정확도 88.56%를 기록하여 JFT-300M에서 3억 장의 이미지로 사전 학습된 ViT-huge와 동등한 성능을 내면서도 학습 데이터량은 23배 적게 사용하였다. 특히 JFT-3B 데이터로 CoAtNet을 추가로 확장한 결과, ImageNet에서 top-1 정확도 90.88%를 달성하며 새로운 최고 성능 기록을 수립하였다.