2달 전

LogME: 전이 학습을 위한 사전 학습 모델의 실용적 평가

Kaichao You; Yong Liu; Jianmin Wang; Mingsheng Long
LogME: 전이 학습을 위한 사전 학습 모델의 실용적 평가
초록

본 논문은 태스크 적응 사전 학습 모델 선택 문제를 연구합니다. 이는 사전 학습 모델을 대상 태스크에 평가하고, 미세 조정(fine-tuning) 없이 모델 저장소(model zoo)에서 최적의 모델들을 선택하는 문제입니다. 몇몇 초기 연구들은 감독된 사전 학습 모델을 분류 태스크로 전환하는 데 이 문제를 다루었지만, 새로운 비감독 사전 학습 모델이나 회귀 태스크에는 적용할 수 없습니다. 실용적인 평가 방법을 찾기 위해, 우리는 사전 학습 모델이 추출한 특징(features)으로 주어진 라벨 증거(label evidence)의 최대 값을 추정하는 방법을 제안합니다. 최대 가능도(maximum likelihood)와 달리, 최대 증거(maximum evidence)는 과적합(over-fitting)에 \emph{영향을 받지 않으며}, 우리의 신중하게 설계된 알고리즘으로 비싼 계산 비용이 크게 줄어들 수 있습니다. 로그 최대 증거(Logarithm of Maximum Evidence, LogME)는 전송 학습(transfer learning)을 위한 사전 학습 모델의 평가에 사용될 수 있습니다: 높은 LogME 값을 가진 사전 학습 모델은 좋은 전송 성능을 보일 가능성이 큽니다. LogME는 \emph{빠르고 정확하며 일반적이어서} 사전 학습 모델의 평가를 위한 첫 번째 실용적인 방법으로 자리 잡았습니다. 무차별 미세 조정(brute-force fine-tuning)과 비교하여, LogME는 벽시계 시간(wall-clock time)에서 최대 $3000\times$ 속도 향상을 가져오며, 메모리 용량은 단지 $1\%$만 필요합니다. 이 방법은 기존 연구들의 설정에서 큰 마진으로 앞서며, 새로운 설정에도 적용 가능합니다. 또한 다양한 사전 학습 모델(감독된 사전 학습 및 비감독된 사전 학습), 하위 태스크(분류 및 회귀), 그리고 모달리티(비전 및 언어)에 대해 충분히 일반적입니다. 코드는 다음 저장소에서 제공됩니다: \href{https://github.com/thuml/LogME}{https://github.com/thuml/LogME}.

LogME: 전이 학습을 위한 사전 학습 모델의 실용적 평가 | 최신 연구 논문 | HyperAI초신경