
要約
可逆畳み込みは、Glowで導入されて以来、表現力豊かな正規化フローに基づく生成モデルを構築する上で不可欠な要素である。訓練およびサンプリングの各段階で効率的な可逆 $k \times k$ 畳み込みの設計をめぐる多くの試みがなされてきた。これらのアプローチは、表現力およびサンプリング効率の向上に寄与したものの、サンプリング時間においては、単に $1 \times 1$ 畳み込みのみを用いたGlowに大きく遅れを取っていた。さらに、多くの手法では基盤となる畳み込みのパラメータの大部分をマスクしてしまうため、固定の実行時間制約下で表現力が低下するという問題も生じていた。本研究では、$k \times k$ 畳み込み層およびDeep正規化フロー構造を提案する。本手法は以下の3つの特徴を持つ:i.) 入力画像の高さ・幅を $n$、カーネルサイズを $k$ とすると、実行時間 $O(nk^2)$ で並列的に逆変換が可能な高速なアルゴリズムを有する;ii.) 各層における学習可能パラメータのマスク量を最小限に抑える;iii.) 実世界のベンチマークにおいて、他の $k \times k$ 畳み込みに基づくモデルと同等の前向き伝搬時間およびサンプリング時間を達成する。また、GPU上で本提案の可逆畳み込みを用いた並列サンプリングアルゴリズムの実装を提供する。CIFAR-10、ImageNet、CelebAデータセットにおけるベンチマーク評価結果から、従来手法と同程度の次元あたりビット数(bits per dimension)の性能を達成しつつ、サンプリング時間において顕著な改善が確認された。