
무조건적인 고해상도 이미지 생성은 이미지 디코더의 성능을 테스트하는 오랜 기준입니다. 자기 회귀 이미지 모델은 무조건적으로 작은 이미지를 생성할 수 있었지만, 해상도를 더욱 쉽게 평가할 수 있는 큰 이미지로 이러한 방법을 확장하는 것은 여전히 미해결된 문제였습니다. 주요 도전 과제 중 하나는 방대한 이전 맥락을 인코딩하는 능력이고, 다른 하나는 전역적인 의미 일관성과 세부 사항의 정확성을 유지하는 분포를 학습하는 데 따른 어려움입니다.이러한 첫 번째 도전 과제를 해결하기 위해, 우리는 서브스케일 픽셀 네트워크(Subscale Pixel Network, SPN)를 제안합니다. SPN은 조건부 디코더 아키텍처로, 동일한 크기의 부분 이미지 시퀀스로 전체 이미지를 생성합니다. SPN은 전체 이미지에 걸친 공간적 의존성을 효율적으로 포착하며, 다른 완전 자기 회귀 모델에 비해 필요한 메모리와 계산량이 크게 줄어듭니다.두 번째 도전 과제를 해결하기 위해, 우리는 다차원 업스케일링(Multidimensional Upscaling)을 제안하여 중간 단계에서 서로 다른 SPNs을 활용하여 이미지를 크기와 깊이 측면에서 확장합니다. 우리는 CelebAHQ 256x256 크기와 ImageNet 32x32부터 256x256 크기까지 무조건적 생성에 대해 SPNs를 평가했습니다. 여러 설정에서 최고 수준의 우도 결과를 달성하였으며, 이전에 탐구되지 않았던 설정에서 새로운 벤치마크 결과를 설정하였습니다. 또한 두 데이터셋 모두을 기반으로 매우 높은 해상도의 대규모 샘플을 생성할 수 있었습니다.