날짜

3달 전

조직

Paper URL

태그

모델 수핑(Model Souping)은 2022년 7월 워싱턴 대학교, 구글 및 기타 대학과 기관의 연구팀이 공동으로 제안했습니다. 관련 연구 결과는 "..."라는 논문에 발표되었습니다.모델 수프: 여러 개의 정밀 조정된 모델의 가중치를 평균화하면 추론 시간을 늘리지 않고 정확도가 향상됩니다.", ICML 2022에 선정되었습니다.

모델 수핑(Model Souping)은 여러 개의 독립적으로 미세 조정된 모델의 가중치를 평균화하여 모델의 정확도와 견고성을 향상시키는 기법입니다. 이 패러다임은 하이퍼파라미터 스위핑 후 미세 조정된 모델들에 대해서만 가중 평균을 수행하므로, 추가적인 학습이 필요하지 않고 추론 과정에서 계산 비용을 증가시키지 않습니다. CLIP, ALIGN, JFT 등으로 사전 학습된 ViT-G와 같은 대규모 사전 학습 모델을 미세 조정할 때, 모델 수핑 방법은 ImageNet 데이터셋에서 하이퍼파라미터 스위핑을 통해 얻은 단일 모델의 최적 성능보다 훨씬 뛰어난 성능을 보여줍니다. 그 결과, ViT-G 모델은 ImageNet에서 90.941 TP3T의 정확도를 달성하며 새로운 기술적 수준을 기록했습니다. 나아가, 이 방법은 다양한 이미지 분류 및 자연어 처리 작업으로 확장될 수 있으며, 분포 이외 데이터셋에 대한 일반화 성능을 향상시킬 뿐만 아니라 새로운 하위 작업에서 제로샷 학습 능력 또한 강화할 수 있습니다.