모델 라타투이유: 다양한 모델의 재사용을 통한 분포 외 일반화

기초 모델(Foundation models)은 인공지능 시스템 구축 방식을 재정의하고 있다. 이제 실무자들은 표준 절차를 따르며 기계 학습 솔루션을 개발한다. 즉, 사전 훈련된 기초 모델을 기반으로 관심 있는 타깃 작업에 대해 가중치를 미세 조정(Fine-tune)하는 방식이다. 그 결과, 인터넷에는 다양한 작업에 대해 미세 조정된 소수의 기초 모델이 널리 퍼져 있다. 그러나 이러한 개별적인 미세 조정은 서로 고립되어 있으며, 상호 보완적인 혜택을 누리지 못하고 있다. 우리 견해로는 이는 큰 기회를 놓친 것으로, 이러한 전문화된 모델들은 풍부하고 다양한 특징을 포함하고 있다. 본 논문에서는 같은 기초 모델을 다양한 보조 작업에 대해 미세 조정한 결과물을 재활용하는 새로운 전략인 모델 라타뚜이(Model Ratatouille) 를 제안한다. 구체적으로, 이러한 보조 작업에 대한 미세 조정된 가중치를 타깃 작업에 대해 병렬적으로 수행되는 여러 미세 조정의 초기화 값으로 재사용한 후, 최종적으로 모든 미세 조정된 가중치를 평균하여 최종 모델을 도출한다. 이 재활용 전략은 보조 작업 간의 다양성을 활용하여 가중치의 다양성을 극대화하는 것을 목표로 한다. 실증적으로, 이 방법은 분포 외 일반화(out-of-distribution generalization)를 평가하는 기준 벤치마크인 DomainBed에서 최신 기술 수준을 개선하였다. 앞으로 이 연구는, 오픈소스 소프트웨어 개발과 유사하게 커뮤니티가 협력하여 신뢰할 수 있게 기계 학습 모델을 지속적으로 업데이트할 수 있는 새로운 패러다임인 업데이트 가능한 기계 학습(updatable machine learning)에 기여할 것으로 기대된다. 본 연구의 코드는 공개되었으며, 다음과 같은 링크에서 확인할 수 있다: https://github.com/facebookresearch/ModelRatatouille.