3달 전

제로샷 모델의 강건한 피니터닝

Mitchell Wortsman, Gabriel Ilharco, Jong Wook Kim, Mike Li, Simon Kornblith, Rebecca Roelofs, Raphael Gontijo-Lopes, Hannaneh Hajishirzi, Ali Farhadi, Hongseok Namkoong, Ludwig Schmidt
제로샷 모델의 강건한 피니터닝
초록

CLIP 또는 ALIGN과 같은 대규모 사전 훈련 모델은 특정 데이터셋에 대한 미세 조정 없이도 제로샷 추론(Zero-shot inference)을 수행할 때 다양한 데이터 분포에 걸쳐 일관된 정확도를 제공한다. 기존의 미세 조정 방법은 특정 타깃 분포에서 정확도를 크게 향상시키지만, 분포 이동에 대한 강건성(robustness)을 저하시키는 경향이 있다. 이 갈등을 해결하기 위해, 미세 조정 중 강건성을 향상시키는 간단하면서도 효과적인 방법을 제안한다. 바로 제로샷 모델과 미세 조정된 모델의 가중치를 앙상블하는 방식(WiSE-FT)이다. 기존의 표준 미세 조정 대비 WiSE-FT는 분포 이동 상황에서 큰 정확도 향상을 제공하면서도 타깃 분포에서 높은 정확도를 유지한다. ImageNet과 그로부터 유도된 다섯 가지 분포 이동에 대해 WiSE-FT는 이전 연구 대비 분포 이동 상황에서 정확도를 4~6퍼센트포인트(pp) 향상시키며, ImageNet 정확도는 1.6pp 증가시켰다. 또한, 추가로 분석한 여섯 가지 다양한 분포 이동에 대해 WiSE-FT는 동일하게 큰 강건성 향상(2~23pp)을 달성했으며, 일반적으로 사용되는 일곱 개의 전이 학습 데이터셋에서 표준 미세 조정 대비 0.8~3.3pp의 정확도 향상을 기록했다. 이러한 성능 향상은 미세 조정 또는 추론 시 추가적인 계산 비용 없이도 달성된다.