자기지도 학습 시각 Transformer를 위한 시각 프롬프트 튜닝 개선

시각 프롬프트 튜닝(Visual Prompt Tuning, VPT)은 사전 훈련된 비전 트랜스포머(Vision Transformers, ViTs)를 하류 작업에 적응시키는 효과적인 튜닝 방법이다. 이 방법은 고정된 사전 훈련된 ViT에 영향을 주기 위해 추가적인 학습 가능한 토큰(즉, 프롬프트)을 활용한다. 비록 VPT는 감독 학습 기반 비전 트랜스포머에서 적용 가능성을 입증했지만, 자기지도 학습(self-supervised) 기반의 경우 종종 성능이 낮은 편이다. 실험적 관찰을 통해 우리는 VPT의 효과성은 프롬프트 토큰이 상호작용하는 ViT 블록에 크게 좌우됨을 확인했다. 구체적으로, MAE와 MoCo v3의 경우 프롬프트 토큰을 초기 블록이 아닌 후반 블록에 삽입할 때 이미지 분류 작업에서 성능이 향상됨을 관찰할 수 있었다. 이러한 관찰 결과는 프롬프트 토큰 삽입에 적합한 최적의 블록 위치가 존재함을 시사한다. 그러나 다양한 미래 시나리오에서 각 자기지도 학습 ViT에 대해 최적의 프롬프트 블록을 탐색하는 것은 매우 비용이 큰 과정이다. 이 문제를 완화하기 위해, 각 ViT 블록마다 개별적으로 조절 가능한 게이트(gate)를 학습하는 간단하면서도 효과적인 방법을 제안한다. 제안한 방법을 통해 프롬프트 토큰은 작업 적응을 위해 조정이 필요한 블록들에만 선택적으로 영향을 받게 된다. 제안한 방법은 FGVC 및 VTAB 이미지 분류, ADE20K 세그멘테이션에서 기존 VPT 변종보다 우수한 성능을 보였다. 코드는 https://github.com/ryongithub/GatedPromptTuning 에서 공개되어 있다.