3달 전

전문 모델을 활용한 확장 가능한 전이 학습

Joan Puigcerver, Carlos Riquelme, Basil Mustafa, Cedric Renggli, André Susano Pinto, Sylvain Gelly, Daniel Keysers, Neil Houlsby
전문 모델을 활용한 확장 가능한 전이 학습
초록

사전 훈련된 표현(표현)의 전이(transfer)는 새로운 작업에 대한 샘플 효율성을 높이고 계산 자원을 절감하는 데 기여할 수 있다. 그러나 일반적으로 전이에 사용되는 표현은 특정 하류 작업의 분포에 맞게 조정되지 않은 일반적인 형태이며, 이는 제한적인 성능을 초래할 수 있다. 본 연구에서는 간단하면서도 효과적인 전략을 통해 전문가(Expert) 표현을 활용한 전이를 탐구한다. 기존의 레이블 구조를 활용하여 다양한 전문가를 훈련하고, 각 타겟 작업에 대해 계산 비용이 낮은 성능 예측 지표(performance proxies)를 사용하여 관련된 전문가를 선택한다. 이 전략은 전이 과정에서 사전 훈련 데이터를 다시 탐색하지 않기 때문에 새로운 작업으로의 전이 과정을 확장할 수 있다. 결과적으로 각 타겟 작업당 추가적인 계산 자원이 거의 필요 없으며, 기존의 경쟁 방법 대비 2~3배의 속도 향상을 달성한다. 또한, 여러 전문가를 하나의 모델로 압축할 수 있는 어댑터 기반 아키텍처를 제안한다. 제안한 방법은 두 가지 다른 데이터 소스에 대해 평가되었으며, 두 경우 모두 20개 이상의 다양한 시각 작업에서 기준 모델을 초월하는 성능을 보였다.