Zero-shot Transfer Learning을 위한 복합적 스케일링

우리는 라벨된 ImageNet 예제를 사용하지 않고 ImageNet ILSVRC-2012 검증 세트에서 85.7%의 상위 1등급 정확도를 달성하는 결합 스케일링 방법인 BASIC을 제시합니다. 이 정확도는 유사한 모델인 CLIP 및 ALIGN보다 9.3% 높습니다. 우리의 BASIC 모델은 또한 견고성 벤치마크에서 중요한 개선을 보여주며, 예를 들어 ImageNet-{A,R,V2,Sketch} 및 ObjectNet와 같은 자연 분포 변화가 있는 5개 테스트 세트에서 평균 상위 1등급 정확도가 84.3%로 원래 ImageNet 정확도와 큰 차이 없음을 확인할 수 있습니다. 이러한 결과를 얻기 위해, 우리는 데이터 크기, 모델 크기, 배치 크기의 세 가지 차원에서 CLIP 및 ALIGN의 대조 학습 프레임워크를 확장했습니다. 우리의 데이터셋은 66억 개의 노이즈 이미지-텍스트 쌍으로 구성되어 있으며, 이는 ALIGN보다 4배 크고 CLIP보다 16배 큽니다. 가장 큰 모델은 30억 개의 가중치를 가지고 있으며, 이는 ALIGN와 CLIP에 비해 매개변수 수가 3.75배 더 많고 FLOPs(부동소수점 연산) 수가 8배 더 큽니다. 마지막으로, 우리의 배치 크기는 65536으로 CLIP보다 2배 더 크고 ALIGN보다 4배 더 큽니다.BASIC의 결합 스케일링 규칙을 구현하는 주요 도전 과제 두 가지를 겪었습니다. 첫째, BASIC의 결합 스케일링 규칙을 구현하는 주요 도전 과제는 GPU 및 TPU와 같은 가속기의 제한된 메모리입니다. 메모리 한계를 극복하기 위해 그래디언트 체크포인팅과 모델 병렬화를 활용하는 두 가지 간단한 방법을 제안합니다. 둘째, 데이터셋 크기와 모델 크기를 증가시키는 것이 BASIC과 같은 딥러닝 모델의 성능을 향상시키는 사실상의 방법이었지만, 큰 대조 배치 크기가 이러한 대조 학습 이미지-텍스트 모델에 미치는 영향은 잘 이해되지 않았�습니다. 큰 대조 배치 크기에 대한 이점을 밝히기 위해, 우리는 큰 대조 배치 크기가 BASIC과 같은 이미지-텍스트 모델의 일반화 간극을 줄이는 것을 보여주는 이론적 프레임워크를 개발했습니다.