17일 전

사전 훈련 모델을 활용한 상호정보량 정규화를 통한 도메인 일반화

Junbum Cha, Kyungjae Lee, Sungrae Park, Sanghyuk Chun
사전 훈련 모델을 활용한 상호정보량 정규화를 통한 도메인 일반화
초록

도메인 일반화(Domain Generalization, DG)는 제한된 소스 도메인만을 이용하여 미지의 타깃 도메인에 대해 일반화된 모델을 학습하는 것을 목표로 한다. 기존의 DG 접근 방식은 학습 도메인과 테스트 도메인 간의 크고 명확한 도메인 차이로 인해, 단지 소스 도메인에서만 도메인 불변 표현을 학습하는 데 실패하였다. 본 연구에서는 이러한 문제를 해결하기 위해 오라클 모델(모든 가능한 도메인에 대해 일반화된 모델)을 활용하여 상호정보량(mutual information)을 기반으로 DG 목적 함수를 재정의한다. 오라클 모델을 사전 학습된 모델로 근사함으로써, 실용적인 변분 하한(lower bound)을 도출하였으며, 이를 통해 '오라클을 활용한 상호정보량 정규화(Mutual Information Regularization with Oracle, MIRO)'라는 새로운 방법을 제안한다. 광범위한 실험 결과는 MIRO가 분포 외(out-of-distribution) 성능을 크게 향상시킴을 보여준다. 또한 스케일링 실험을 통해 사전 학습된 모델의 규모가 클수록 MIRO의 성능 향상이 더 두드러짐을 확인하였다. 소스 코드는 https://github.com/kakaobrain/miro 에서 공개되어 있다.

사전 훈련 모델을 활용한 상호정보량 정규화를 통한 도메인 일반화 | 최신 연구 논문 | HyperAI초신경