프롬프트의 시각적 튜닝에 대한 재고

시각적 프롬프트 튜닝(Visual Prompt Tuning, VPT)은 사전 훈련된 모델을 하류 작업에 맞게 맞춤화하기 위해 학습 가능한 프롬프트 토큰을 통합하는 유망한 접근법이다. 그러나 VPT 및 그 변종들은 종종 프롬프트 초기화, 프롬프트 길이, 자기지도 학습 기반 사전 훈련에서의 낮은 성능 등의 문제에 직면하며, 이는 성공적인 문맥 적응을 방해한다. 본 연구는 효율적인 훈련 과정에서 프롬프트 토큰과 패치 토큰 간의 상관관계 변화를 탐구함으로써 시작한다. 프롬프트 토큰이 패치 토큰과 높은 상호정보량을 공유하는 관찰에 착안하여, 하류 작업의 토큰 프로토타입을 활용한 프롬프트 초기화 전략을 제안한다. 이 전략적 초기화는 기존 초기화 방식을 대체하며, 미세 조정(fine-tuning) 성능을 크게 향상시킨다. 이를 보다 정교하게 개선하기 위해, VPT와 비교해 거의 증가하지 않는 계산 비용으로 우수한 성능을 유지하는 간소화된 토큰 구축 파이프라인을 제안한다. 철저한 실험 결과, 제안된 방법은 기존 기법들을 뚜렷한 격차로 앞서가며, FGVC 및 VTAB-1K 벤치마크에서 전체 미세 조정보다 24개 작업 중 19개에서 우수한 성능을 달성했으며, 학습 가능한 파라미터는 0.4% 미만을 사용했다. 특히, 자기지도 사전 훈련에 대한 적응성 측면에서 본 방법은 놀라운 성능 향상을 보였으며, 최소 10%에서 최대 30%에 이르는 작업 성능 향상을 기록했다. 또한 실험 결과는 제안된 SPT(Self-Prompt-Tuning)가 프롬프트 길이에 대해 강건하며, 모델 용량과 훈련 데이터 크기에 따라 잘 스케일링됨을 보여주었다. 마지막으로, 사전 훈련된 모델이 하류 작업에 적응하는 데 필요한 타겟 데이터의 양에 대한 통찰력 있는 분석을 제시한다. 코드는 https://github.com/WangYZ1608/Self-Prompt-Tuning 에 공개되어 있다.