
要約
高品質画像の無条件生成は、画像デコーダの性能を評価するための長年のベンチマークとなっています。自己回帰型画像モデルは小規模な画像を無条件で生成することが可能でしたが、忠実度がより容易に評価できる大規模な画像への拡張は未解決の問題でした。主な課題には、広範な過去のコンテキストをエンコードする能力と、全体的な意味的一貫性と詳細の正確さを保つ分布を学習することの困難さがあります。前者の課題に対処するために、我々はサブスケールピクセルネットワーク(Subscale Pixel Network: SPN)という条件付きデコーダアーキテクチャを提案します。このアーキテクチャは、画像全体の空間的依存関係をコンパクトに捉え、他の完全自己回帰型モデルに比べて大幅に少ないメモリと計算量で動作します。後者の課題に対処するために、我々は多次元アップスケーリング(Multidimensional Upscaling)を使用して、中間段階で異なるSPNを利用しながら画像のサイズと深さを増加させる手法を提案します。我々はCelebAHQ(256×256ピクセル)およびImageNet(32×32ピクセルから256×256ピクセルまで)における無条件生成タスクでSPNを評価しました。複数の設定において最先端の尤度結果を得ることができました。また、これまで探索されていなかった設定において新しいベンチマーク結果を樹立し、両データセットに基づいて非常に高品質な大規模サンプルを生成することが可能です。