13일 전

픽스너드: 힉셀 뉴럴 필드 디퓨전

Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang
픽스너드: 힉셀 뉴럴 필드 디퓨전
초록

현재 확산 트랜스포머의 성공은 사전 훈련된 변분 오토인코더(VAE)에 의해 형성된 압축된 잠재 공간에 크게 의존하고 있다. 그러나 이 두 단계 훈련 패러다임은 불가피하게 누적 오차와 디코딩 아티팩트를 초래한다. 이러한 문제를 해결하기 위해 연구자들은 복잡한 캐스케이드 파이프라인과 증가한 토큰 복잡성을 감수하면서 픽셀 공간으로 되돌아가야 했다. 반면, 우리는 신경 필드(neural field)를 활용하여 패치 단위 디코딩을 모델링하는 새로운 접근을 제안하며, 단일 스케일, 단일 단계, 효율적이고 엔드투엔드(end-to-end) 구조의 솔루션을 제안한다. 이를 '픽셀 신경 필드 확산(Pixel Neural Field Diffusion, PixelNerd)'이라 명명한다. PixelNerd의 효율적인 신경 필드 표현 덕분에, 복잡한 캐스케이드 파이프라인이나 VAE 없이도 ImageNet $256\times256$에서 2.15 FID, ImageNet $512\times512$에서 2.84 FID를 달성하였다. 또한 본 연구는 텍스트에서 이미지 생성 응용으로까지 PixelNerd 프레임워크를 확장하였다. PixelNerd-XXL/16은 GenEval 벤치마크에서 경쟁력 있는 0.73점의 종합 점수와 DPG 벤치마크에서 80.9점의 종합 점수를 기록하였다.