BossNAS: 블록 단위 자기지도 학습을 통한 하이브리드 CNN-Transformer 신경망 아키텍처 탐색

최근 시각 인식을 위한 수작업으로 설계된 신경망 아키텍처에서의 수많은 돌파구는 다양한 구성 요소로 이루어진 하이브리드 아키텍처 탐색의 시급성을 부각시키고 있다. 한편 신경망 아키텍처 탐색(NAS) 기법은 인간의 노력 감소를 기대하며 급속도로 발전하고 있다. 그러나 기존의 NAS 기법이 CNN과 트랜스포머 등 서로 다른 성격을 가진 후보들로 구성된 다변화된 탐색 공간을 효율적이고 효과적으로 다룰 수 있는지 여부는 여전히 미해결 과제로 남아 있다. 본 연구에서는 이 문제를 해결하기 위해, 기존 방법에서 큰 가중치 공유 공간과 편향된 감독에 의해 발생하는 아키텍처 평가의 부정확성 문제를 해결하는 비지도 NAS 기법인 블록 단위 자기지도 신경망 아키텍처 탐색(BossNAS)을 제안한다. 구체적으로, 탐색 공간을 블록으로 분해하고, 전체 아키텍처를 전체 인구 중심 방향으로 탐색하기 전에 각 블록을 별도로 학습하기 위한 새로운 자기지도 학습 전략인 '앙상블 부트스트랩(ensemble bootstrapping)'을 도입한다. 또한, 탐색 가능한 다운샘플링 위치를 포함하는 직조 구조와 유사한 하이브리드 CNN-트랜스포머 탐색 공간인 HyTra를 제안한다. 이 도전적인 탐색 공간에서 탐색된 모델인 BossNet-T는 ImageNet에서 최대 82.5%의 정확도를 달성하며, 계산 시간은 효율넷(EfficientNet)과 유사하면서도 2.4% 높은 성능을 보였다. 더불어, 본 연구 방법은 ImageNet 기반의 전형적인 MBConv 탐색 공간과 CIFAR-100 기반의 NATS-Bench 크기 탐색 공간에서 각각 0.78 및 0.76의 스피어만 상관 계수를 기록하며, 최첨단 NAS 기법들을 초월하는 아키텍처 평가 정확도를 확보하였다. 코드: https://github.com/changlin31/BossNAS