
초록
최근 몇 년간 시각 모델의 크기는 특히 비전 트랜스포머(Visual Transformer) 등장 이후 급격히 증가해 왔다. 이에 따라, 미세조정 시 전체 모델 파라미터 중 극소수만을 학습하고, 대부분의 파라미터는 사전 학습된 상태에서 동결하는 파라미터 효율적인 미세조정 방법(예: 어댑터 레이어 학습 또는 시각 프롬프트 토큰 학습)이 개발되고 있다. 그러나 적절한 미세조정 방법을 설계하는 것은 쉽지 않다. 다양한 설계 선택지를 장기간 시도해야 할 뿐만 아니라, 각 하류 데이터셋마다 맞춤형 설계가 필요하기 때문이다. 본 논문에서는 기존의 파라미터 효율적인 미세조정 방법을 ‘프롬프트 모듈((prompt modules)’로 간주하고, 대규모 시각 모델에 대해 각 하류 데이터셋에 맞춰 신경망 아키텍처 탐색(Neural Architecture Search) 알고리즘을 활용하여 최적의 프롬프트 모듈 구조를 자동으로 학습하는 새로운 접근법인 Neural prOmpt seArcH (NOAH)를 제안한다. 20개 이상의 시각 데이터셋에서 실시한 광범위한 실험을 통해 NOAH가 (i) 개별 프롬프트 모듈보다 우수한 성능을 보이며, (ii) 우수한 소수 샘플 학습(few-shot learning) 능력을 지니며, (iii) 다양한 도메인에 일반화 가능한 특성을 갖는다는 것을 입증하였다. 코드와 모델은 https://github.com/Davidzhangyuanhan/NOAH 에서 공개되어 있다.