9일 전

시각적 프롬프트 튜닝

Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, Ser-Nam Lim
시각적 프롬프트 튜닝
초록

사전 훈련된 모델을 적응시키는 현재의 일반적인 방식은 백본 파라미터 전체를 업데이트하는, 즉 전체 미세조정(fine-tuning)을 수행하는 것이다. 본 논문은 대규모 트랜스포머 모델을 위한 시각 인식 분야에서 전체 미세조정의 효율적이고 효과적인 대안으로 시각 프롬프트 튜닝(Visual Prompt Tuning, VPT)을 제안한다. 최근 대규모 언어 모델을 효율적으로 튜닝하는 기술의 발전에서 영감을 받아, VPT는 모델 백본을 고정한 채로 입력 공간에 매우 소량(모델 파라미터의 1% 미만)의 튜닝 가능한 파라미터만 도입한다. 다양한 하류 인식 작업에 걸쳐 실시한 광범위한 실험을 통해, VPT가 다른 파라미터 효율적인 튜닝 방법들에 비해 뚜렷한 성능 향상을 달성함을 보여준다. 특히 중요한 점은, 다양한 모델 규모와 훈련 데이터 규모에 걸쳐 VPT가 전체 미세조정을 넘어서는 성능을 보이며, 동시에 각 작업에 대한 저장 비용을 크게 감소시킨다는 것이다.