17일 전
ResMLP: 데이터 효율적인 훈련을 위한 이미지 분류를 위한 피드포워드 네트워크
Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Gautier Izacard, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, Hervé Jégou

초록
우리는 이미지 분류를 위한 완전히 다층 퍼셉트론(multi-layer perceptrons)으로 구성된 ResMLP 아키텍처를 제안한다. 이는 이미지 패치 간의 상호작용을 채널 간 독립적으로 수행하는 선형 레이어와, 각 패치 내에서 채널 간 상호작용을 독립적으로 수행하는 두 층의 전방향 신경망으로 번갈아가며 구성된 단순한 잔차 네트워크이다. 현대적인 학습 전략(강한 데이터 증강 및 선택적 디스틸레이션 포함)을 사용하여 훈련할 경우, ImageNet에서 놀라울 정도로 우수한 정확도와 복잡도의 균형을 달성한다. 또한 라벨이 부여된 데이터셋을 사용하는 데 있어 사전 지식을 더욱 제거하기 위해, 자율학습(self-supervised) 환경에서 ResMLP 모델을 훈련하였다. 마지막으로, 본 모델을 기계 번역에 적응시켜 놀라운 성능을 달성하였다.우리는 Timm 라이브러리를 기반으로 사전 훈련된 모델과 코드를 공개한다.