16일 전

시각-언어 모델을 위한 일관성 지향 프롬프트 학습

Shuvendu Roy, Ali Etemad
시각-언어 모델을 위한 일관성 지향 프롬프트 학습
초록

우리는 시각-언어 모델을 위한 새로운 파인튜닝 방법인 일관성 지도형 프롬프트 학습(Consistency-guided Prompt learning, CoPrompt)을 제안한다. 본 방법은 소량의 데이터로 하류 작업(few-shot setting)에서 대규모 기초 모델의 일반화 성능을 향상시키는 데 목적이 있다. CoPrompt의 핵심 아이디어는 트레이너블 모델과 사전 훈련된 모델의 예측에 일관성 제약을 부여함으로써 하류 작업에 대한 과적합(overfitting)을 방지하는 것이다. 더불어, 성능을 추가로 향상시키기 위해 다음과 두 가지 요소를 일관성 제약에 도입한다: (1) 두 개의 변형된 입력에 대해 일관성 강제, (2) 프롬프팅과 어댑터(Adapter)라는 두 가지 주요 튜닝 패러다임의 통합. 변형된 입력에 대한 일관성 강제는 일관성 제약을 더욱 정규화하여 일반화 성능을 향상시킨다. 또한 어댑터와 프롬프트의 통합은 하류 작업에서의 성능 향상뿐 아니라 입력 공간과 출력 공간에서의 더 큰 튜닝 유연성을 제공한다. 이는 소량 학습(few-shot learning) 환경에서 하류 작업에 더 효과적으로 적응할 수 있도록 한다. 실험 결과, CoPrompt는 기존 방법들을 상회하며, 기존 데이터셋에서의 일반화(기존 클래스 → 새로운 클래스), 도메인 일반화, 그리고 데이터셋 간 전이 평가 등 다양한 평가 세트에서 뛰어난 성능을 보였다. 특히 일반화 성능 측면에서 제로샷(zero-shot) 작업에서 최신 기술을 초과하며, 11개 데이터셋에 대한 전반적인 조화 평균(harmonic mean)에서도 기존 최고 성능을 개선하였다. 자세한 아블레이션 연구를 통해 CoPrompt 내 각 구성 요소의 효과성을 입증하였다. 본 연구의 코드는 https://github.com/ShuvenduRoy/CoPrompt 에 공개되어 있다.

시각-언어 모델을 위한 일관성 지향 프롬프트 학습 | 최신 연구 논문 | HyperAI초신경