17일 전

PVP: 사전 학습된 시각적 파라미터 효율적 튜닝

Zhao Song, Ke Yang, Naiyang Guan, Junjie Zhu, Peng Qiao, Qingyong Hu
PVP: 사전 학습된 시각적 파라미터 효율적 튜닝
초록

대규모 사전 훈련된 트랜스포머 모델은 다양한 컴퓨터 비전 작업에서 놀라운 성공을 거두었으나, 하류 작업에 대해 이러한 모델을 완전히 미세조정하는 것은 높은 계산 및 저장 비용으로 인해 여전히 큰 도전 과제이다. 최근에는 파라미터 효율적 조정(Parameter-Efficient Tuning, PETuning) 기법, 예를 들어 시각적 프롬프트 조정(Visual Prompt Tuning, VPT) 및 낮은 랭크 적응(Low-Rank Adaptation, LoRA) 등이 사전 훈련된 모델 내에 가벼운 프롬프트 모듈을 삽입하고, 적은 수의 학습 가능한 파라미터로 이 프롬프트 모듈만을 조정함으로써 계산 및 저장 비용을 크게 줄였다. 이 과정에서 트랜스포머 백본은 고정된 상태로 유지된다. 비록 조정해야 할 파라미터 수가 매우 적지만, 대부분의 PETuning 방법은 좋은 성능을 달성하기 위해 상당한 양의 하류 작업 데이터를 필요로 한다. 특히 클래스당 예시가 하나 또는 두 개에 불과한 저데이터 환경에서는 성능이 부족하다. 이를 해결하기 위해, 우리는 먼저 실험적으로 성능 저하의 주요 원인이 프롬프트 모듈의 부적절한 초기화 방식에 있음을 확인하였으며, 이는 사전 훈련된 언어 모델에서도 동일하게 확인된 바 있다. 이후 본 연구에서는 사전 훈련된 시각적 파라미터 효율적(PVP) 조정 프레임워크를 제안한다. 이 프레임워크는 먼저 파라미터 효율적 조정 모듈을 사전 훈련한 후, 사전 훈련된 모듈과 사전 훈련된 트랜스포머 백본을 함께 활용하여 하류 작업에 대해 파라미터 효율적 조정을 수행한다. 다섯 개의 미세 분류 시각 인식(Fine-Grained Visual Classification, FGVC) 및 VTAB-1k 데이터셋에서의 실험 결과는 제안하는 방법이 기존 최고 수준의 PETuning 기법들을 크게 능가함을 보여준다.