17일 전

확장 가능한 트랜스포머 기반 확산 모델

William Peebles, Saining Xie
확장 가능한 트랜스포머 기반 확산 모델
초록

우리는 트랜스포머 아키텍처를 기반으로 하는 새로운 종류의 확산 모델을 탐구한다. 우리는 일반적으로 사용되는 U-넷 백본 대신 잠재적 패치 위에서 작동하는 트랜스포머를 사용하여 이미지의 잠재 확산 모델을 훈련한다. 우리는 Gflops로 측정된 전방 전파 복잡도의 관점에서 우리의 확산 트랜스포머(DiTs)의 확장성(스케일러빌리티)을 분석한다. 그 결과, 트랜스포머의 깊이/너비를 늘리거나 입력 토큰 수를 늘림으로써 Gflops가 높아진 DiT 모델일수록 일관되게 낮은 FID 값을 기록함을 확인하였다. 또한 우수한 확장성 특성을 갖는 동시에, 우리 최대 규모의 DiT-XL/2 모델은 클래스 조건부 ImageNet 512x512 및 256x256 벤치마크에서 이전의 모든 확산 모델을 능가하며, 후자에서 최신 기준(FID: 2.27)을 달성하였다.

확장 가능한 트랜스포머 기반 확산 모델 | 최신 연구 논문 | HyperAI초신경