11일 전

모델 수프: 여러 개의 미세조정된 모델의 가중치를 평균화함으로써 추론 시간을 증가시키지 않고 정확도를 향상시킨다

Mitchell Wortsman, Gabriel Ilharco, Samir Yitzhak Gadre, Rebecca Roelofs, Raphael Gontijo-Lopes, Ari S. Morcos, Hongseok Namkoong, Ali Farhadi, Yair Carmon, Simon Kornblith, Ludwig Schmidt
모델 수프: 여러 개의 미세조정된 모델의 가중치를 평균화함으로써 추론 시간을 증가시키지 않고 정확도를 향상시킨다
초록

모델 정확도를 극대화하는 전통적인 방법은 (1) 다양한 하이퍼파라미터를 사용해 여러 모델을 훈련하고, (2) 검증 세트에서 성능이 가장 우수한 모델을 선택하여 나머지 모델은 폐기하는 것이다. 본 논문에서는 대규모 사전 훈련된 모델의 미세조정(fine-tuning) 맥락에서 이 절차의 두 번째 단계를 재검토한다. 미세조정된 모델들은 종종 단일한 낮은 오류의 계곡(low error basin) 내에 존재하는 것으로 보이며, 서로 다른 하이퍼파라미터 설정으로 미세조정된 여러 모델의 가중치를 평균화하면 정확도와 강건성(robustness)이 향상됨을 보여준다. 전통적인 앙상블(ensemble)과 달리, 추가적인 추론 비용이나 메모리 비용 없이도 수많은 모델을 평균화할 수 있다. 이러한 결과를 우리는 ‘모델 수프(model soups)’라고 부른다. CLIP, ALIGN, 그리고 JFT 데이터셋으로 사전 훈련된 ViT-G와 같은 대규모 사전 훈련 모델을 미세조정할 때, 모델 수프 방법은 이미지 분류 데이터셋(ImageNet)에서 하이퍼파라미터 스윕(hyperparameter sweep)을 통해 얻은 최고 성능 모델보다도 상당한 성능 향상을 제공한다. 이로써 도출된 ViT-G 모델은 ImageNet에서 90.94%의 top-1 정확도를 달성하며, 새로운 최고 성능 기록을 수립했다. 더불어, 모델 수프 접근법이 여러 이미지 분류 및 자연어 처리 작업에 확장 가능하며, 분포 외(out-of-distribution) 성능과 새로운 하류 작업에 대한 제로샷(zero-shot) 성능도 향상됨을 보였다. 마지막으로, 가중치 평균화와 로짓 앙상블(logit-ensembling)의 성능 유사성은 손실 함수의 평탄함(Flatness)과 예측의 신뢰도(confidence)와 해석적으로 관련됨을 제시하고, 이를 실증적으로 검증하였다. 코드는 https://github.com/mlfoundations/model-soups 에서 공개되어 있다.

모델 수프: 여러 개의 미세조정된 모델의 가중치를 평균화함으로써 추론 시간을 증가시키지 않고 정확도를 향상시킨다 | 최신 연구 논문 | HyperAI초신경