17日前

敵対的連続画像生成

Ivan Skorokhodov, Savva Ignatyev, Mohamed Elhoseiny
敵対的連続画像生成
要約

現在の多数の学習システムでは、画像は通常、2次元のピクセル配列として扱われる。しかし、近年注目が高まっている別の枠組みでは、2次元画像は暗黙的ニューラル表現(Implicit Neural Representation: INR)として表現される——すなわち、座標(x, y)を入力として、その位置に対応するRGBピクセル値を予測するMLP(多層パーセプトロン)である。本論文では、INRに基づく画像デコーダーを構築するための2つの新しいアーキテクチャ技術、すなわち「因子分解型乗算モジュレーション」と「マルチスケールINR」を提案し、それらを活用して最先端の連続画像GAN(生成対抗ネットワーク)を構築した。これまでのINRを画像生成に応用した試みは、MNISTのような単純なデータセットに限られ、複雑な現実世界のデータにはスケーラブルではなかった。本研究で提案するINR-GANアーキテクチャは、連続画像生成器の性能を数倍向上させ、連続画像GANとピクセルベースのGANとの間の性能ギャップを大幅に縮小した。さらに、INRベースのデコーダーが持ついくつかの興味深い特性についても検討した。具体的には、即座に超解像(out-of-the-box superresolution)が可能であること、意味のある画像空間内補間(meaningful image-space interpolation)が実現できること、低解像度画像の推論を高速化できること、画像境界外への外挿(extrapolation)が可能であること、そして強い幾何学的事前知識(strong geometric prior)を持つことなどである。プロジェクトページは以下のURLに掲載されている:https://universome.github.io/inr-gan。

敵対的連続画像生成 | 最新論文 | HyperAI超神経