11일 전
언어이미지 사전학습을 위한 시그모이드 손실
Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer

초록
우리는 언어-이미지 사전학습(Language-Image Pre-training, SigLIP)을 위한 간단한 쌍별 시그모이드 손실(Sigmoid loss)을 제안한다. 기존의 소프트맥스 정규화를 사용하는 표준 대조학습과 달리, 시그모이드 손실은 이미지-텍스트 쌍에만 기반하며, 정규화를 위해 쌍 간 유사도에 대한 전역적인 정보를 필요로 하지 않는다. 이 손실은 배치 크기를 더욱 확대할 수 있는 동시에, 작은 배치 크기에서도 더 뛰어난 성능을 발휘한다. 잠금된 이미지 튜닝(Locked-image Tuning)과 결합하여, 단지 네 개의 TPUv4 칩만으로도 두 일 이내에 84.5%의 ImageNet 제로샷 정확도를 달성하는 SigLiT 모델을 학습할 수 있다. 손실 함수에서 배치 크기를 분리함으로써, 예시(예: 샘플)와 쌍(pair)의 영향, 그리고 음성 대 양성 예의 비율이 모델 성능에 미치는 영향을 독립적으로 탐구할 수 있게 되었다. 마지막으로, 배치 크기를 극한까지 확대(최대 100만)해 본 결과, 배치 크기 증가의 이점은 빠르게 감소함을 확인하였으며, 보다 현실적인 배치 크기인 32,000 정도로도 충분함을 발견하였다. 본 연구에서 개발한 모델은 https://github.com/google-research/big_vision 에 공개되며, 언어-이미지 사전학습의 품질과 효율성 향상에 대한 추가적인 탐구를 촉진하기를 기대한다.