2달 전

대조적 언어-이미지 학습의 재현 가능한 스케일링 법칙

Cherti, Mehdi ; Beaumont, Romain ; Wightman, Ross ; Wortsman, Mitchell ; Ilharco, Gabriel ; Gordon, Cade ; Schuhmann, Christoph ; Schmidt, Ludwig ; Jitsev, Jenia
대조적 언어-이미지 학습의 재현 가능한 스케일링 법칙
초록

신경망의 확장을 통해 다양한 작업에서 뛰어난 성능이 달성되었습니다. 또한, 학습 데이터셋 크기, 모델 크기, 및 컴퓨팅과 관련된 신뢰할 수 있는 확장 법칙에 따라 성능이 향상되는 경우가 많아, 대규모 실험이 점점 더 비싸지는 상황에서 귀중한 지침을 제공하고 있습니다. 그러나 이전의 확장 법칙 연구는 주로 사적인 데이터와 모델을 사용하거나 언어나 시각 학습에 초점을 맞춘 단일 모달(single-modal) 학습에 집중되었습니다. 이러한 제한을 해결하기 위해, 우리는 공개된 LAION 데이터셋과 오픈 소스인 OpenCLIP 저장소를 이용하여 대조적 언어-이미지 사전 학습(Contrastive Language-Image Pre-training, CLIP)의 확장 법칙을 조사하였습니다. 우리의 대규모 실험은 최대 20억 개의 이미지-텍스트 쌍으로 학습된 모델들을 포함하며, 제로샷 분류, 검색, 선형 탐색, 그리고 엔드투엔드 미세 조정 등 여러 하위 작업에서 전력 법칙(power law scaling) 확장을 확인하였습니다. 우리는 OpenAI와 OpenCLIP 모델들이 동일한 모델 구조와 유사한 학습 방법론에도 불구하고 서로 다른 확장 행동을 보이는 것을 발견하여, 학습 분포가 확장 법칙에서 중요한 역할을 한다는 것을 확인하였습니다. 재현성을 보장하고 확장 법칙 연구를 더욱 접근 가능하게 만들기 위해, 우리는 평가 워크플로우와 모든 모델들을 오픈 소스화하였으며, 이에는 가장 큰 공개 CLIP 모델들도 포함됩니다. 본 연구를 재현하기 위한 소스 코드와 지침은 https://github.com/LAION-AI/scaling-laws-openclip 에서 제공될 예정입니다.

대조적 언어-이미지 학습의 재현 가능한 스케일링 법칙 | 최신 연구 논문 | HyperAI초신경