16일 전

읽기 전용 프롬프트 최적화를 통한 시각-언어 소수 샘플 학습

Dongjun Lee, Seokwon Song, Jihee Suh, Joonmyung Choi, Sanghyeok Lee, Hyunwoo J.Kim
읽기 전용 프롬프트 최적화를 통한 시각-언어 소수 샘플 학습
초록

최근 몇 년 동안, 프롬프트 튜닝은 사전 훈련된 시각-언어 모델을 하류 작업에 적응시키는 데 효과적임이 입증되었다. 이러한 방법들은 사전 훈련된 가중치를 고정한 채로 학습 가능한 프롬프트를 도입함으로써 모델을 적응시키는 것을 목표로 한다. 그러나 학습 가능한 프롬프트는 자기 주의(self-attention) 모듈 내부 표현에 영향을 미칠 수 있으며, 이는 특히 데이터 부족 환경에서 성능 변동성과 일반화 능력에 부정적인 영향을 줄 수 있다. 이러한 문제를 해결하기 위해 우리는 새로운 접근법인 '읽기 전용 프롬프트 최적화(Read-only Prompt Optimization, RPO)'를 제안한다. RPO는 마스킹된 주의(masked attention)를 활용하여 사전 훈련된 모델 내부 표현의 이동을 방지한다. 또한 RPO의 최적화를 촉진하기 위해, 읽기 전용 프롬프트는 사전 훈련된 모델의 특수 토큰(special tokens)을 기반으로 초기화한다. 광범위한 실험을 통해 RPO가 CLIP과 CoCoOp에 비해 베이스-투-뉴 일반화 및 도메인 일반화에서 더 우수한 성능을 보이며, 더 뛰어난 강건성(robustness)을 나타냄을 입증하였다. 더불어 극도로 데이터가 부족한 환경에서도 더 나은 일반화 성능을 달성하면서 파라미터 효율성과 계산 오버헤드를 개선하는 효과를 보였다. 코드는 https://github.com/mlvlab/RPO 에서 제공된다.

읽기 전용 프롬프트 최적화를 통한 시각-언어 소수 샘플 학습 | 최신 연구 논문 | HyperAI초신경