
要約
自然画像の分布をモデル化することは、教師なし学習における重要な問題である。この課題には、表現力があり、扱いやすく、スケーラブルな画像モデルが必要とされる。本稿では、画像内の2つの空間次元に沿って逐次的にピクセルを予測する深層ニューラルネットワークを提案する。当手法は、生のピクセル値の離散確率をモデル化し、画像内の完全な依存関係を符号化する。アーキテクチャ上の新規性としては、高速な2次元再帰層と深層再帰ネットワークでの残差接続の効果的な利用が含まれる。我々は自然画像に対して従来の最先端技術よりも大幅に優れた対数尤度スコアを達成した。主な結果はまた、多様なImageNetデータセットにおけるベンチマークも提供している。モデルから生成されたサンプルは明瞭で、多様性があり、全体的に一貫性がある。注:「対数尤度スコア」(log-likelihood scores)や「ベンチマーク」(benchmarks)などの専門用語は一般的な日本語訳を使用しています。「ImageNetデータセット」(ImageNet dataset)は有名なデータセットであるため、そのまま使用しました。