17일 전

사전 훈련된 모델을 사용한 미세 조정 없이 수행하는 도메인 일반화

Ziyue Li, Kan Ren, Xinyang Jiang, Bo Li, Haipeng Zhang, Dongsheng Li
사전 훈련된 모델을 사용한 미세 조정 없이 수행하는 도메인 일반화
초록

사전 훈련된 모델의 미세 조정은 도메인 일반화(DG) 작업에서 흔히 사용되는 기법이다. 그러나 사전 훈련된 모델의 크기가 지속적으로 증가함에 따라 미세 조정은 계산적으로 매우 비용이 크다. 더욱 중요한 점은 최근 연구에서 지적된 바와 같이, 소스 도메인에서 과적합(over-fitting)을 유발할 수 있으며, 이로 인해 일반화 능력이 저하될 수 있다는 것이다. 일반적으로 사전 훈련된 모델은 어느 정도의 일반화 능력을 지니고 있으며, 특정 도메인과 샘플에 대해 충분한 성능을 발휘할 수 있다. 그러나 사전 훈련된 모델의 일반화 성능은 서로 다른 테스트 도메인, 심지어 동일한 도메인 내에서도 샘플에 따라 크게 달라질 수 있어, DG 작업에서 사전 훈련된 모델을 최적으로 활용하는 데 큰 도전을 제기한다. 본 논문에서는 다양한 사전 훈련된 모델을 보다 효과적으로 활용하기 위한 새로운 도메인 일반화 프레임워크를 제안한다. 이를 '도메인 일반화를 위한 전문화된 앙상블 학습(Specialized Ensemble Learning for Domain Generalization, SEDGE)'이라 한다. SEDGE는 고정된 사전 훈련된 모델 위에 선형 레이블 공간 어댑터를 훈련시켜, 사전 훈련된 모델의 출력을 타겟 도메인의 레이블 공간으로 변환한다. 이후, 모델의 전문화 특성을 고려한 앙상블 네트워크를 제안하여 각 테스트 샘플에 대해 적절한 사전 훈련된 모델을 동적으로 배분하여 예측을 수행한다. 여러 벤치마크에서 수행된 실험 결과, SEDGE는 강력한 기준 모델, 특히 DG 작업에서 최신 기술 수준의 방법과 비교해도 상당한 성능 향상을 달성하였으며, 학습 가능한 파라미터 수를 약 99%, 훈련 시간을 약 99.5% 감소시켰다.

사전 훈련된 모델을 사용한 미세 조정 없이 수행하는 도메인 일반화 | 최신 연구 논문 | HyperAI초신경