17일 전

이미지-언어 모델의 일반화를 위한 베이지안 프롬프트 학습

Mohammad Mahdi Derakhshani, Enrique Sanchez, Adrian Bulat, Victor Guilherme Turrisi da Costa, Cees G. M. Snoek, Georgios Tzimiropoulos, Brais Martinez
이미지-언어 모델의 일반화를 위한 베이지안 프롬프트 학습
초록

기초 이미지-언어 모델은 프롬프트 학습을 통해 하류 작업에 효율적으로 적응할 수 있다는 점에서 큰 관심을 끌고 있다. 프롬프트 학습은 언어 모델 입력의 일부를 학습 가능한 파라미터로 취급하면서 나머지 부분은 고정하고, 경험적 위험 최소화(Empirical Risk Minimization) 목적함수를 최적화한다. 그러나 경험적 위험 최소화는 학습 과정에서 나타나지 않은 프롬프트에 대한 일반화 능력에 악영향을 미치는 분포의 변화(distributional shifts)에 취약하다는 점이 잘 알려져 있다. 본 연구에서는 베이지안 방법의 정규화 능력을 활용하여 프롬프트 학습을 베이지안 관점에서 재정의하고, 변분 추론(variational inference) 문제로 공식화한다. 제안하는 방법은 프롬프트 공간을 정규화함으로써 관측된 프롬프트에 대한 과적합을 줄이고, 미관측 프롬프트에 대한 일반화 능력을 향상시킨다. 본 프레임워크는 입력 프롬프트 공간을 확률적으로 모델링하여 사전 분포(a priori distribution)로 표현함으로써, 이미지에 무관하거나 이미지에 조건부인 프롬프트 학습 방법과도 호환되도록 구현된다. 15개의 벤치마크에서 실증적으로 검증한 결과, 베이지안 프롬프트 학습은 프롬프트 공간에 적절한 커버리지를 제공하며, 부정확한 특징(스푸리어 특징) 학습을 방지하고, 이식 가능한 불변 특징(invariant features)을 효과적으로 활용함으로써, 다양한 데이터셋과 도메인 간에도 미관측 프롬프트에 대한 더 우수한 일반화 성능을 달성함을 입증하였다. 코드는 다음 링크에서 제공된다: https://github.com/saic-fi/Bayesian-Prompt-Learning

이미지-언어 모델의 일반화를 위한 베이지안 프롬프트 학습 | 최신 연구 논문 | HyperAI초신경