17일 전

에너지 기반 모델의 이중-MCMC 교사 기반 학습

Jiali Cui, Tian Han
에너지 기반 모델의 이중-MCMC 교사 기반 학습
초록

이 논문은 에너지 기반 모델(EBM)의 기본 학습 문제를 탐구한다. EBM의 학습은 일반적으로 최대우도추정(MLE)을 통해 이루어지며, 이 과정에서 마르코프 체인 몬테카를로(MCMC) 샘플링, 예를 들어 랑주뱅 역학(Langevin dynamics)이 사용된다. 그러나 노이즈 초기화된 랑주뱅 역학은 실용적으로는 어려움을 겪고, 혼합(mixing)이 어렵다는 문제가 있다. 이러한 문제를 해결하기 위해, MCMC 샘플링을 회피할 수 있는 보조 모델로서 생성자 모델(generator model)과의 공동 학습(co-training) 방식이 탐구되고 있다. 그러나 이 방법은 MCMC보다 정확도가 낮을 수 있으며, EBM 학습에 편향을 초래할 수 있다. 반면 생성자 모델은 EBM에 맞춰 학습됨으로써 더 나은 MCMC 샘플링을 위한 초기화 모델로 활용될 수 있으나, 실제 데이터 예시에 접근할 수 없기 때문에 EBM만을 매칭하는 방식으로 학습되며, 이로 인해 생성자 모델 자체의 학습이 편향될 수 있다. 이러한 편향된 생성자 학습은 EBM 학습의 잠재력을 제한할 수 있다. 본 연구는 이러한 문제를 해결하기 위해, EBM과 보조 생성자 모델에 대한 최대우도 학습 알고리즘을 상호 연결하는 공동 학습 프레임워크를 제안한다. 특히, 생성자 모델은 EBM과 실제 데이터 분포를 모두 매칭하도록 MLE를 통해 학습되며, 이는 EBM의 MCMC 샘플링을 위한 보다 정보가 풍부한 초기화 모델로 기능하게 된다. 관측된 예시를 활용한 생성자 학습은 일반적으로 생성자 사후분포(inference of the generator posterior)를 필요로 한다. 정확하고 효율적인 추론을 보장하기 위해, 본 연구는 MCMC 사후 샘플링을 도입하고, 잠재 변수 공간에서의 MCMC 샘플링을 초기화하기 위한 보조 추론 모델(complementary inference model)을 제안한다. 본 연구에서는 두 가지(쌍대-) MCMC 교육(dual-MCMC teaching)를 통해 세 개의 별도 모델이 원활하게 통합될 수 있음을 보이며, 효과적이고 효율적인 EBM 학습이 가능함을 입증한다.