2달 전

전이 모델: 생성 학습 목적의 재고찰

Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai

초록

생성 모델링 분야에는 여전히 근본적인 딜레마가 존재한다. 반복적인 확산 모델은 뛰어난 정확도를 달성하지만, 상당한 계산 비용을 수반하며, 효율적인 소수의 단계로 구성된 대안들은 뚜렷한 품질 한계에 갇혀 있다. 생성 단계 수와 출력 품질 사이의 이 갈등은, 무한소 동역학(PF-ODE) 또는 직접적인 최종점 예측에만 집중하는 제한적인 학습 목표에서 비롯된다. 본 연구에서는 임의의 유한 시간 간격 내에서 상태 전이를 해석적으로 정의하는 정확한 연속 시간 동역학 방정식을 제안함으로써 이 문제를 해결한다. 이를 통해 단일 단계에서부터 세밀한 보정에 이르기까지 임의의 단계 수로 생성 경로를 부드럽게 탐색할 수 있는 새로운 생성 패러다임인 전이 모델(TiM, Transition Models)을 제시한다. TiM은 단지 8.65억 파라미터를 가지지만, 평가된 모든 단계 수에서 기존 최고 수준의 모델인 SD3.5(80억 파라미터) 및 FLUX.1(120억 파라미터)을 능가하는 성능을 달성한다. 특히, 이전의 소수 단계 생성 모델들과 달리, TiM은 샘플링 예산이 증가함에 따라 품질이 단조롭게 향상됨을 보여준다. 더불어 본 연구에서 제안하는 고해상도 전용 전략을 적용할 경우, TiM은 최대 4096×4096 해상도까지 뛰어난 정밀도를 유지한다.