17일 전
생성용 표현 정렬: 생성형 확산 트랜스포머의 훈련은 생각보다 쉬워요
Yu, Sihyun, Kwak, Sangkyung, Jang, Huiwon, Jeong, Jongheon, Huang, Jonathan, Shin, Jinwoo, Xie, Saining

초록
최근 연구들은 (생성형) 확산 모델에서 노이즈 제거 과정이 모델 내부에 의미 있는 (판별적) 표현을 유도할 수 있음을 보여주었다. 다만 이러한 표현의 품질은 최근의 자기지도 학습 방법을 통해 학습된 표현보다 여전히 떨어진다. 우리는 대규모 확산 모델을 생성 목적으로 훈련하는 데 있어 주요한 장벽 중 하나가 이러한 표현을 효과적으로 학습하는 데 있음을 주장한다. 또한, 확산 모델이 독자적으로 이러한 표현을 학습하는 데 의존하는 대신, 고품질의 외부 시각 표현을 통합함으로써 훈련을 더 쉽게 만들 수 있음을 제안한다. 이를 검증하기 위해, 노이즈가 첨가된 입력의 은닉 상태를 확산 제거 네트워크에서 추출한 표현을, 외부 사전 훈련된 시각 인코더로부터 얻은 깨끗한 이미지 표현과 일치시키는 간단한 정규화 기법인 REPresentation Alignment (REPA)를 제안한다. 그 결과는 인상적이다: 이 단순한 전략은 DiTs 및 SiTs와 같은 인기 있는 확산 및 플로우 기반 트랜스포머 모델에 적용했을 때, 훈련 효율성과 생성 품질 양면에서 상당한 개선을 이끌어냈다. 예를 들어, 제안한 방법은 SiT의 훈련 속도를 17.5배 이상 향상시킬 수 있으며, 700만 단계 동안 훈련된 SiT-XL 모델의 성능(분류기 자유 가이드라인 없이)을 40만 단계 미만의 훈련으로 달성할 수 있다. 생성 품질 측면에서도, 분류기 자유 가이드라인과 가이드라인 간격을 사용함으로써 FID=1.42의 최신 기준 수준 성능을 달성하였다.